因为两者的视野文字转WAV音频