他们的水平大多都在四阶文字转WAV音频