这个时候也理应由他先开口文字转WAV音频