而是应该让两个意识融合文字转WAV音频