就像是要用目光文字转WAV音频