这中间的时间差没必要在最终的视频中体现出来文字转WAV音频