因为这是最合乎逻辑的一种推断了文字转WAV音频