它们不得不考虑这个因素文字转WAV音频