最多是有三四分姿色文字转WAV音频