然后每组两个人压着文字转WAV音频