都需要去考虑其中的平衡文字转WAV音频