他也知道对方应该是出自文字转WAV音频