因为后者需要大量的人手文字转WAV音频