马斯克的首款多模态大模型来了，GPT-4V又被超越了一次-六虎

自从 2023 年 11 月 Grok 首次亮相以来，马斯克的 xAI 正在大模型领域不断取得进步，向 OpenAI 等先行者发起进攻。在 Grok-1 开源后不到一个月，xAI 的首个多模态模型就问世了。

昨天，xAI 推出了 Grok-1.5V，该模型不仅能理解文本，还能处理文档、图表、截图和照片中的内容。

官方博文表示：「Grok-1.5V 在许多领域都能媲美当前顶尖的多模态模型，从多学科推理到理解文档、科学图表、图表、截图和照片。」 xAI 还表示，在接下来的几个月里，预计将在图像、音频和视频等各种模态上显著提高模型能力。

我们看到了 Grok-1.5V 与 GPT-4V、Claude 3Sonnet、Claude 3 Opus 和 Gemini Pro 1.5 的测试对比。其中特别提到的是：「Grok 在理解物理世界方面的能力尤其令我们兴奋。在我们新推出的 RealWorldQA 基准测试中，Grok 的表现优于同类产品。对于下面的所有数据集，我们都是在没有思维链提示的情况下对 Grok 进行评估的。」

如果 Grok-1.5 能在类似于 Grok-1 的开源许可证下发布，这将成为当下 LLM 竞争格局的一个重要节点。

Grok-1.5V 表现如何？

目前，Grok-1.5V 还没有完全开放，但会很快提供给早期测试者和现有的 Grok 用户。不过，博客中展示了 Grok-1.5V 的七个示例。

第一个是将流程图的白板草图转换为 Python 代码：

Prompt：Can you translate this into Python code?（你能把它翻译成 Python 代码吗？）

Grok：当然！您提供的流程图描述了一个简单的竞猜游戏：计算机生成一个随机数，用户必须猜出它。下面是表示流程图中逻辑的 Python 代码：

<span><span>import</span> random</span>

第二个是计算卡路里：

Prompt：How many calories are there in 5 slices of this?（5 片有多少卡路里？）

Grok：如果一份是 3 片，含有 60 卡路里，那么 5 片就含有大约 100 卡路里。计算方法是首先确定每片的热量：60 卡 / 3 片 = 20 卡 / 片。然后，将每片的卡路里乘以片数：每片 20 卡路里 * 5 片 = 100 卡路里。

第三个是将草图转化为睡前故事：

Prompt：My son drew this, can you tell a short bedtime story based on his drawing?（这是我儿子画的，你能根据他的画讲一个简短的睡前故事吗？）

Grok：

很久很久以前，在一个充满冒险和奇迹的国度里，有一个勇敢的小男孩，名叫提米。提米和家人住在舒适的小房子里，他最喜欢的事情就是探索周围的世界。

在一个阳光明媚的日子里，提米决定去附近的森林探险。他带上了自己最喜欢的零食、指南针和他最信任的笔记本，准备把看到的所有令人兴奋的事物都画下来。

当 Timmy 走进森林深处时，他发现了一条在阳光下闪闪发光的神奇河流。这条河是如此迷人，以至于提米决定做一艘小纸船，顺流而下，作为给森林精灵的特别讯息。

提米小心翼翼地折好纸船，在上面画了一个笑脸，希望能给森林精灵带来欢乐。然后，他把小船放在河面上，看着小船载着他的友谊和对大自然的爱漂走了。

夕阳西下，提米知道是时候回家了。他为自己在森林里度过的神奇的一天感到庆幸，他知道自己将永远铭记这次探险。

回到家后，提米和家人分享了他的故事，家人听到他在森林里度过的神奇一天都非常高兴。他们一致认为，提米勇敢、善良的精神是一种真正的激励，他们知道，提米今后还会有更多精彩的冒险经历。

就这样，带着满心的爱和满脑子的梦想，提米渐渐进入了梦乡，他渴望发现在他的想象世界里还有什么新的冒险在等着他。

第四个是解释梗图：

Prompt：I don’t get it, please explain（我不理解，啥意思？）

Grok：

这幅图幽默地将初创公司和大公司作了对比。在标有 “初创企业” 的左侧，有一群人在一起挖洞。他们都在积极参与，洞已经挖得很深了。

在标有 “大公司” 的右侧，有一群人围着一个洞站着。然而，与初创公司不同的是，只有一个人真正在挖洞，其他人都在观看或从事其他活动。

这幅图的幽默感来自于对初创企业和大公司之间差异的夸大。在初创公司，人们往往有一种紧迫感，希望每个人都能直接为手头的任务做出贡献。相比之下，大公司往往被描述为官僚主义更严重，所有团队成员对每个项目的直接参与更少。

第五个是将表格转换为 CSV 文件格式：

Prompt：Please convert this table to csv.（请将此表转换为 csv。）

Grok：

<span><span>medal,name,sport,event,date</span></span>

CSV 格式不支持样式或格式设置，因此信息以纯文本格式呈现。

第六个是辨别木头的腐朽程度：

Prompt：These holes are appearing around the screws in my deck. Is it rotten? Should I get my boards replaced?（这些孔出现在我的甲板上的螺钉周围。是不是烂了？我应该更换吗？）

Grok：

甲板上的木材似乎已经开始腐烂。这表现在螺丝周围出现孔洞，这是木材腐烂的常见迹象。

为了确保露台的安全和使用寿命，建议更换受影响的木板。这将有助于防止其受到进一步损坏，并保持其结构的完整性。

如果您不确定如何更换木板，咨询专业的露台建造商或承包商可能会有所帮助。他们将能够评估损坏的程度，并就最佳行动方案向您提供专家建议。

第七个是解决编程问题：

Prompt：Can you write Python code that solves this?（你能编写 Python 代码来解决这个问题吗？）

Grok 回复如下：

<span>def find_triplets(nums):</span>

RealWorldQA 基准

本次发布还有一个亮点：xAI 推出了一个新的基准「RealWorldQA」。

下载地址：data.x.ai/realworldqa…

「为了开发有用的真实世界人工智能助手，提高模型对物理世界的理解至关重要。」xAI 希望借助该基准更好地评估多模态模型的基本真实世界空间理解能力。「虽然当前基准中的许多示例对人类来说相对容易，但它们往往对前沿模型构成挑战。」

目前，RealWorldQA 包含 700 多张图片，每张图片都有一个问题和易于验证的答案。

在真实世界的图像外，该数据集还包括从车辆上拍摄的匿名图像。这对于自动驾驶领域来说，或许是个好消息。

巧合的是，微软研究院前段时间更新了跨语言、模态、模型和任务的基准测试 MEGAVERSE，包含 22 个数据集，涵盖 83 种语言（包括资源匮乏的非洲语言）。微软还在基准测试中加入了两个多模态数据集，并比较了 LLaVA 模型 GPT-4-Vision 和 Gemini-Pro-Vision 的性能。

Meta 在前几天也开源了衡量人工智能系统具体问答能力的基准数据集 OpenEQA，包含家庭和办公室等 180 多种不同现实环境的 1600 多个问题，跨越七个类别，全面测试 AI 在物体和属性识别、空间和功能推理以及常识知识等技能方面的能力，加深大模型对现实世界的理解。

即使是最先进的 AI 模型，如 GPT-4V，在 OpenEQA 上也难以与人类表现相媲美。OpenEQA 是衡量人工智能系统理解和回答现实世界问题能力的新基准。

在这些研究的推动下，我们可以期待一下 2024 年大模型在现实世界任务取得更多的进展。

参考链接：x.ai/blog/grok-1…

马斯克的首款多模态大模型来了，GPT-4V又被超越了一次

相关文章

计算机视觉入门路线

ios 调试技巧（6）使用崩溃报告和设备日志诊断问题

creator中实现使用spine的atlas进行换肤

复杂系统: 网络主宰着我们的世界

作者信息