至少画面所呈现的范围内文字转WAV音频