MiniGPT-4：看图聊天、教学、创作、搭网站……还开源了-六虎

一个月前，OpenAI 总裁 Greg Brockman 向世人展示了 GPT-4 令人惊奇的多模态才能，如从手写文本直接生成网站和识别图画中的幽默元素等。

虽然现在 OpenAI 暂未对 GPT-4 用户开放这一才能，但具有多模态才能的视觉语言模型令人充满了想象力。

近日，来自阿卜杜拉国王科技大学的研究团队，便提出了一个具有相似 GPT-4 图画了解与对话才能的 AI 大模型——MiniGPT-4，并将其开源。

据介绍，MiniGPT-4 具有超卓的多模态才能，如从手写草稿创建网站、生成具体的图画描绘、依据图画创作故事和诗歌、为图画中描绘的问题提供解决方案，以及依据食物照片教对话目标如何烹饪一道甘旨的菜品等。

在技能层面上，MiniGPT-4 由一个带有预训练的 ViT 和 Q-Former 的视觉编码器、一个单一的线性投影层和一个 Vicuna 大语言模型组成。而且，MiniGPT-4 只需要训练线性层，使视觉特征与 Vicuna 保持一致。

有 Y Combinator 用户这样点评 MiniGPT-4，“在技能层面上，他们正在做一些十分简单的工作……但成果十分惊人。最重要的是，它在 OpenAI 的 GPT-4 图画模态之前呈现。（这是）开源 AI 的真实胜利。”

也有用户表示，“我认为他们为一个不相关的项目运用 GPT-4 名称是一种糟糕的方式。毕竟，底层的 Vicuna 仅仅一个微调的 LLaMA。另外，他们运用了较小的 13B 版本。然而，成果看起来很有趣。”

项目地址：
minigpt-4.github.io/
GitHub地址：
github.com/Vision-CAIR…

MiniGPT-4：看图聊天、教学、创作、搭网站……还开源了