然后就很自然地微侧头向对方接受文字转WAV音频