每一次镜头组接都吻合于背景音乐的节奏文字转WAV音频