由此就能看出两者的技术代差了文字转WAV音频