训练量至少比之前多了五成文字转WAV音频