自然就需要极其苛刻的条件来弥补文字转WAV音频