按照最坏的情况来考虑文字转WAV音频