他们的想法都是正常情况下文字转WAV音频