看来他们从一开始文字转WAV音频