只能保持最后的理智文字转WAV音频