其中有一个核心却是一成不变的文字转WAV音频