同样关注着场中之景文字转WAV音频