充其量也就是简单对话和看图说话的水平文字转WAV音频