原来真正的口信是文字转WAV音频