所以一般只有两个人坐着文字转WAV音频