前者是典型的高投资文字转WAV音频