他也需要收集到足够的材料文字转WAV音频