以双方现在的状态来讲文字转WAV音频