最后生成头部文字转WAV音频