尤其是中间的五层文字转WAV音频