然后就是主人的声音文字转WAV音频