他就需要考虑最近一个阶段文字转WAV音频