应该是他随从文字转WAV音频