它只是事先把一切都计算好文字转WAV音频