他们只负责基础选拔文字转WAV音频