自己则是在旁边辅助文字转WAV音频