所以基本上都是她们在说话文字转WAV音频