因为他俩都相信文字转WAV音频