因为第二个视频并不是很清晰文字转WAV音频