其实是间接的文字转WAV音频