也就是需要三千多的贡献值文字转WAV音频