所以两个人分别坐在两侧文字转WAV音频