有一大半是整齐叠好的文字转WAV音频