机器之心报道
修改:赵阳
尽管 LLaVA 是用一个小的多模态指令数据集练习的,但它在一些示例上展现了与多模态模型 GPT-4 十分相似的推理成果。
GPT-4 的识图才能什么时分能上线呢?这个问题现在仍然没有答案。
但研讨社区现已等不及了,纷繁自己上手 DIY,其中最火的是一个名为MiniGPT-4的项目。MiniGPT-4 展现了许多相似于 GPT-4 的才能,例如生成具体的图画描绘并从手写草稿创建网站。此外,作者还观察到 MiniGPT-4 的其他新式才能,包含根据给定的图画创造故事和诗歌,供给处理图画中显现的问题的处理计划,根据食物照片教用户如何烹饪等。该项目上线 3 天就拿到了近一万的 Star 量。
今日要介绍的项目 ——LLaVA(Large Language and Vision Assistant)与之相似,是一个由威斯康星大学麦迪逊分校、微软研讨院和哥伦比亚大学研讨者一起发布的多模态大模型。
- 论文链接:arxiv.org/pdf/2304.08…
- 项目链接:llava-vl.github.io/
该模型展现出了一些接近多模态 GPT-4 的图文了解才能:相对于 GPT-4 获得了 85.1% 的相对得分。当在科学问答(Science QA)上进行微调时,LLaVA 和 GPT-4 的协同效果完结了 92.53% 精确率的新 SoTA。
以下是机器之心的试用成果(更多成果见文末):
论文概览
人类经过视觉和言语等多种途径与国际交互,由于不同的途径在代表和传达某些概念时都有各自共同的优势,多途径的办法有利于更好地了解国际。人工智能的中心愿望之一是开发一个通用的助手,能够有用地遵从多模态指令,例如视觉或言语的指令,满意人类的意图,在真实环境中完结各种使命。
为此,社区兴起了对开发根据言语增强的视觉模型的风潮。这类模型在敞开国际视觉了解方面具有强大的才能,如分类、检测、分割和图文,以及视觉生成和视觉修改才能。每个使命都由一个大型视觉模型独立处理,在模型设计中隐含地考虑了使命的需求。此外,言语仅用于描绘图画内容。尽管这使得言语在将视觉信号映射到言语语义(人类沟通的常见途径)方面发挥了重要效果,但它导致模型通常具有固定的界面,在交互性和对用户指令的适应性上存在限制。
另一方面,大型言语模型(LLM)现已标明,言语能够发挥更广泛的效果:作为通用智能助理的通用交互接口。在通用接口中,各种使命指令能够用言语明确表明,并引导端到端练习的神经网络助理切换模式来完结使命。例如,ChatGPT 和 GPT-4 最近的成功证明了 LLM 在遵从人类指令完结使命方面的能量,并掀起了开发开源 LLM 的热潮。其中,LLaMA 是一种与 GPT-3 功能附近的开源 LLM。Alpaca、Vicuna、GPT-4-LLM 运用各种机器生成的高质量指令跟踪样原本进步 LLM 的对齐才能,与专有 LLM 比较,展现出了令人形象深刻的功能。但惋惜的是,这些模型的输入仅为文本。
在本文中,研讨者提出了视觉 instruction-tuning 办法,首次尝试将 instruction-tuning 扩展到多模态空间,为构建通用视觉助理铺平了道路。
具体来说,本文做出了以下贡献:
- 多模态指令数据。当下关键的挑战之一是缺少视觉与言语组成的指令数据。本文提出了一个数据重组办法,运用 ChatGPT/GPT-4 将图画 – 文本对转换为恰当的指令格式;
- 大型多模态模型。研讨者经过衔接 CLIP 的开源视觉编码器和言语解码器 LLaMA,开发了一个大型多模态模型(LMM)—— LLaVA,并在生成的视觉 – 言语指令数据上进行端到端微调。实证研讨验证了将生成的数据用于 LMM 进行 instruction-tuning 的有用性,并为构建遵从视觉 agent 的通用指令供给了较为有用的技巧。运用 GPT-4,本文在 Science QA 这个多模态推理数据集上完结了最先进的功能。
- 开源。研讨者向大众发布了以下资产:生成的多模式指令数据、用于数据生成和模型练习的代码库、模型检查点和可视化谈天演示。
LLaVA 架构
本文的首要方针是有用运用预练习的 LLM 和视觉模型的功能。网络架构如图 1 所示。本文选择 LLaMA 模型作为 LLM f(・),由于它的有用性现已在几个开源的纯言语 instruction-tuning 工作中得到了证明。
对于输入图画 X_v,本文运用预练习的 CLIP 视觉编码器 ViT-L/14 进行处理,得到视觉特征 Z_v=g (X_v)。试验中运用的是最后一个 Transformer 层之前和之后的网格特征。本文运用一个简略的线性层来将图画特征衔接到单词嵌入空间中。具体而言,运用可练习投影矩阵 W 将 Z_v 转换为言语嵌入符号 H_q,H_q 具有与言语模型中的单词嵌入空间相同的维度:
之后,得到一系列视觉符号 H_v。这种简略投影计划具有轻量级、本钱低一级特点,能够快速迭代以数据为中心的试验。也能够考虑衔接图画和言语特征的更复杂(但贵重)的计划,例如 Flamingo 中的门控交叉注意力机制和 BLIP-2 中的 Q-former,或许供给目标级特征的其他视觉编码器,如 SAM。
试验成果
多模态谈天机器人
研讨者开发了一个谈天机器人示例产品,以展现 LLaVA 的图画了解和对话才能。为了进一步研讨 LLaVA 如何处理视觉输入,展现其处理指令的才能,研讨者首先运用 GPT-4 原始论文中的示例,如表 4 和表 5 所示。运用的 prompt 需要贴合图画内容。为了进行比较,本文引用了其论文中多模态模型 GPT-4 的 prompt 和成果。
令人惊讶的是,尽管 LLaVA 是用一个小的多模态指令数据集(约 80K 的不重复图画)练习的,但它在以上这两个示例上展现了与多模态模型 GPT-4 十分相似的推理成果。请注意,这两张图画都不在 LLaVA 的数据集范围内,LLaVA 能够了解场景并按照问题阐明进行答复。比较之下,BLIP-2 和 OpenFlamingo 专心于描绘图画,而不是按照用户指令以恰当的办法进行答复。更多示例如图 3、图 4 和图 5 所示。
定量评价成果见表 3。
ScienceQA
ScienceQA 包含 21k 个多模态多选问题,触及 3 个主题、26 个论题、127 个类别和 379 种技术,具有丰富的领域多样性。基准数据集分为练习、验证和测验部分,分别有 12726、4241 和 4241 个样本。本文对比了两种有代表性的办法,包含 GPT-3.5 模型(text-davinci-002)和没有思想链(CoT)版本的 GPT-3.5 模型,LLaMA-Adapter,以及多模态思想链(MM-CoT)[57],这是该数据集上当时的 SoTA 办法,成果如表 6 所示。
试用反馈
在论文给出的可视化运用页面上,机器之心也尝试着输入了一些图片和指令。首先是问答里常见的数人使命。测验标明,数人的时分较小的方针会被疏忽,堆叠的人也有辨认差错,性别也有辨认差错。
接着,咱们尝试了一些生成使命,比方为图片起名字,或许根据图片讲一个故事。模型输出的成果仍是偏向于图片内容了解,生成方面的才能还有待加强。
在这张照片中,即便人体有重合也仍然能精确地辨认出人数。从图片描绘和了解才能的角度来看,本文的工作仍是存在亮点,存在着二创的空间。