还要判断对方的反应文字转WAV音频