那么我们能够把握就只有整个过程文字转WAV音频