一直以来都是他推测的文字转WAV音频