第三则需要能源输入文字转WAV音频