修改:桃子
**【新智元导读】**浙大 & 微软推出的 HuggingGPT 爆火之后,刚刚敞开了 demo,急不可待的网友自己上手体会了一番。
最强组合 HuggingFace+ChatGPT=「贾维斯」现在敞开 demo 了。
前段时间,浙大 & 微软发布了一个大模型协作体系 HuggingGPT 直接爆火。
研究者提出了用 ChatGPT 作为控制器,衔接 HuggingFace 社区中的各种 AI 模型,完结多模态杂乱使命。
整个进程,只需要做的是:用自然言语将你的需求输出。
英伟达科学家称,这是我本周读到的最有意思的论文。它的思维十分挨近我之前说的「Everything App」,即万物皆 App,被 AI 直接读取信息。
上手体会
现在,HuggingGPT 增加了 Gradio 演示。
项目地址:github.com/microsoft/J…
有网友便上手体会了一番,先来「辨认图上有几个人」?
HuggingGPT 依据推理成果,得出图片中有 2 个人正在街道上行走。
具体进程如下:
首先运用图画到文本模型 nlpconnect/vit-gpt2-image-captioning 进行图画描绘,生成的文本「2 个女人在有火车的街道上行走」。
接着,运用了方针检测模型 facebook/detrresnet 50 来检测图片中的人数。模型检测出 7 个物体,2 个人。
再运用视觉问题答复模型 dandelin/vilt-b32-finetuned-vqa 得出成果。终究,体系供给了具体的呼应和用于解答问题的模型信息。
别的,让它了解「我喜欢你」这句话的情感,并将其翻译成泰米尔语(Tamiḻ)。
HuggingGPT 调用了以下模型:
首先,运用了模型「dslim/bert-base-NER」对文本「l love you」进行情感分类,是「浪漫」。
然后,运用「ChatGPT」将文本翻译成泰米尔语,即「Nan unnai kadalikiren」。
在推理成果中没有生成的图片、音频或视频文件。
转录 MP3 文件时,HuggingGPT 却失败了。网友表示,「不确定这是否是我的输入文件的问题。」
再来看看图画生成的才能。
输入「一只猫跳舞」图画上增加文字「I LOVE YOU」作为叠加层。
HuggingGPT 首先运用了「runwayml/stable-diffusion-1-5」模型依据给定的文本生成「跳舞的猫」的图片。
然后,运用同一个模型依据给定的文本生成了「I LOVE YOU」的图片。
终究,将 2 个图片兼并在一起,输出如下图:
贾维斯照进现实
项目揭露没几天,贾维斯现已在 GitHub 上收成了 12.5k 星,以及 811 个 fork。
研究者指出处理大型言语模型(LLMs)当前的问题,可能是迈向 AGI 的第一步,也是要害的一步。
因为当前大型言语模型的技能仍然存在着一些缺陷,因而在构建 AGI 体系的道路上面临着一些急迫的挑战。
为了处理杂乱的人工智能使命,LLMs 应该能够与外部模型和谐,以利用它们的才能。
因而,要害点在于怎么挑选适宜的中间件来桥接 LLMs 和 AI 模型。
在这篇研究论文中,研究者提出在 HuggingGPT 中言语是通用的接口。其作业流程主要分为四步:
论文地址:arxiv.org/pdf/2303.17…
首先是使命规划,ChatGPT 解析用户恳求,将其分解为多个使命,并依据其知识规划使命顺序和依靠关系。
接着,进行模型挑选。LLM 依据 HuggingFace 中的模型描绘将解析后的使命分配给专家模型。
然后执行使命。专家模型在推理端点上执行分配的使命,并将执行信息和推理成果记录到 LLM 中。
终究是呼应生成。LLM 总结执行进程日志和推理成果,并将摘要回来给用户。
假如给出这样一个恳求:
请生成一个女孩正在看书的图片,她的姿势与 example.jpg 中的男孩相同。然后请用你的声音描绘新图片。
能够看到 HuggingGPT 是怎么将它拆解为 6 个子使命,并分别选定模型执行得到终究成果的。
经过将 AI 模型描绘纳入提示中,ChatGPT 能够被视为管理人工智能模型的大脑。因而,这一办法能够让 ChatGPT 能够调用外部模型,来处理实际使命。
简单来讲,HuggingGPT 是一个协作体系,并非是大模型。
它的作用便是衔接 ChatGPT 和 HuggingFace,从而处理不同模态的输入,并处理众多杂乱的人工智能使命。
所以,HuggingFace 社区中的每个 AI 模型,在 HuggingGPT 库中都有相应的模型描绘,并将其融合到提示中以树立与 ChatGPT 的衔接。
随后,HuggingGPT 将 ChatGPT 作为大脑来确定问题的答案。
到目前为止,HuggingGPT 现已环绕 ChatGPT 在 HuggingFace 上集成了数百个模型,涵盖了文本分类、方针检测、语义分割、图画生成、问答、文本到语音、文本到视频等 24 个使命。
实验成果证明,HuggingGPT 能够在各种形式的杂乱使命上表现出良好的性能。
网友热评
有网友称,HuggingGPT 类似于微软此前提出的 Visual ChatGPT,似乎他们把最初的主意扩展到了一组巨大的预训练模型上。
Visual ChatGPT 是直接基于 ChatGPT 构建,并向其注入了许多可视化模型(VFMs)。文中提出了 Prompt Manage。
在 PM 的帮助下,ChatGPT 能够利用这些 VFMs,并以迭代的方法接纳其反馈,直到满足用户的要求或到达结束条件。
还有网友认为,这个主意确实与 ChatGPT 插件十分类似。以 LLM 为中心进行语义了解和使命规划,能够无限提升 LLM 的才能边界。经过将 LLM 与其他功能或领域专家相结合,咱们能够创立更强壮、更灵活的 AI 体系,能够更好地适应各种使命和需求。
这便是我一直以来对 AGI 的观点,人工智能模型能够了解杂乱使命,然后将较小的使命分派给其他更专业的 AI 模型。
就像大脑一样,它也有不同的部分来完结特定的使命,听起来很符合逻辑。
参考资料:
twitter.com/1littlecode…
www.youtube.com/watch?v=3_5…
huggingface.co/spaces/micr…