它只能根据自己听到的事物来进行判断文字转WAV音频