另外一个重要的因素是文字转WAV音频