也就是以两三人为一组文字转WAV音频