显然他是属于前者文字转WAV音频