面临的情况其实和文字转WAV音频