到了这一步实际上已经能够吸收文字转WAV音频