并没有将眼前所见直接定性文字转WAV音频