所不同的是两个高低不同的声音文字转WAV音频