那是完全不同的两个阶层文字转WAV音频