所以他选择了直接去做文字转WAV音频