最终我们锁定其中至少四个人文字转WAV音频