倒是前者的可能性最大文字转WAV音频