一部分是之前来的文字转WAV音频