他们有可能判断文字转WAV音频