数量占到了其中的起码一半的水平文字转WAV音频