就需要很多内在知识作为基础文字转WAV音频