本文由 简悦 SimpRead 转码, 原文地址 www.qbitai.com
顺便 12 个大模型 112 页 “试题” 剖析
2023-12-05 14:51:31 来源:量子位
顺便 12 个大模型 112 页 “试题” 剖析
Pan Lu 投稿
量子位 | 大众号 QbitAI
大模型的 “5 年高考 3 年模仿” 数学题来了,仍是加强强强版!
微软、加州大学洛杉矶分校(UCLA)、华盛顿大学(UW)联合打造全新多模态数学推理基准数据集。
名为 “MathVista”。
包含各种题型共 6141 个问题,来源于 28 个现有的多模态数据集和 3 个新标示的数据集。
这下想要知道一个大模型数学水平怎么样,直接让它来做这份试卷。
12 个最新的大模型现已抢先体验了一把试题难度。
一份 112 页的具体评测陈述连同数据集一同发布。
陈述显现,面对 MathVista 中丰富的使命类型、推理办法和图画类型,即使是当时最先进的 GPT-4V 做起来都有 “挫折感”,精确率为 49.9%,和人类还有 10.4% 的距离。
Bard 排名第二,精确率为 34.8%,距离再次拉大。
此外,陈述中还深入剖析了 GPT-4V 在自我验证、自洽性和多轮对话才能的研讨潜力等。
具体内容我们接着往下看。
数学推理才能被视为实现 AGI 关键一步。除了传统的纯文字场景,许多数学研讨和运用还触及到丰富的图形内容。
但是,大模型在视觉场景下的数学推理才能尚未被系统地研讨。
因此,微软联合加州大学洛杉矶分校(UCLA)和华盛顿大学(UW)共同开发了这一多模态数学推理基准数据集——MathVista,聚焦于视觉场景下的数学问答使命。
正如上文说到的,MathVista 包含 6141 个数学问题,来自于 28 个现有数据集和 3 个新标示数据集。
其间三个新标示的数据集是 IQTest、FunctionQA 和 PaperQA,各有特色。
IQTest 侧重于智力测试题,FunctionQA 专注于函数图形的推理,而 PaperQA 则重视于对文献中的图表进行深入了解,有用地弥补了现有数据集的不足。
此外,MathVista 掩盖了两种首要的使命类型:多选题(占比 55.2%)和数值型开放题(占比 44.8%)。
包含五大使命类别:图形问答(FQA)、几许解题(GPS)、数学运用题(MWP)、教材问答(TQA)和视觉问答(VQA)。
这些使命类别代表了当时数学推理范畴的前沿应战。
细分来看,MathVista 定义了数学推理的七大才能范畴,包含算术、核算、代数、几许、数值常识、科学和逻辑。
这些范畴包含了数学推理的中心要素,体现了 MathVista 在数学认知范围的全面掩盖。
在图画类型的多样性方面,MathVista 也展示了其共同的广度和深度。
该数据集包含了十余种不同的图画类型。
从自然图画到几许图表:
从笼统场景到合成场景:
以及各种图形、图表和绘图:
这种丰富的图画类型不仅增加了数据集的杂乱性,也为多模态大模型在处理不同类型的视觉信息时供给了全面的应战。
研讨陈述中,首次对当时大型模型在视觉场景下的数学推理才能进行了全面的量化评价。
陈述中运用的 MathVista 数据集分为两个子集:minitest 和 test。
minitest 子集含有 1000 个问题,首要用于快速评价模型功能。
而 test 子集则包含剩下的 5141 个问题,旨在进行模型的标准化评价,为了避免测试数据污染,该子集的答案标签数据不对外公开。
模型评价进程分为三个关键阶段:生成答复、抽取答案和核算分数。
在生成答复阶段,根据测试问题的类型,研讨团队运用了特定的模板来引导模型输出答案。
考虑到当时大型模型一般以对话方式输出长文本答复,陈述中的试验设计了一个根据 GPT-4 的答案抽取器。
这个抽取器经过几个实例提示 GPT-4,从模型的长文本答复中抽取出契合标题类型的短答案。这种办法有用地克服了传统人工评价的高本钱问题和根据规则的答案抽取可能导致的不精确性。
随后,这些抽取出来的短文本答案被用于核算模型的全体精确率以及在不同子分类别下的精确率。
试验在 testmini 子集上评价了 12 种大模型:包含 ChatGPT、GPT-4 和 Claude-2 三个大言语模型,以及 LLaVA、LLaMA-Adapter、miniGPT-4、Bard 和 GPT-4V 等九种多模态大模型。
关于大言语模型,试验设计了两种方式:
第一种只运用问题的文字信息;
第二种是运用图片的 Captioning 描绘和 OCR 文作为外部增强信息。
此外,试验还完成了两种随机基准和人类体现基准。
试验成果显现,当时的大模型在 MathVista 上的全体体现仍有待提高。
体现最佳的 GPT-4V 模型达到了 49.9% 的精确率,但这与人类的 60.3% 体现相比还有明显距离。
其次是 Bard 模型,精确率为 34.8%,而现在最好的开源模型 LLaVA 的精确率则为 26.1%。
这些数据标明,大模型在视觉背景下的数学推理才能还有很大的提高空间。
风趣的是,当结合图画 OCR 和 Captioning 信息时,大言语模型 GPT-4 的体现(33.9%)挨近于多模态模型 Bard(34.8%)。这一发现显现,经过恰当的东西增强,大型言语模型在多模态范畴具有巨大的潜力。
试验还对首要模型在不同数学推理才能和图画类型子类上的体现进行了量化评价。
成果显现,GPT-4V 在诸如代数、几许和科学范畴的推理才能上,以及在处理表格、函数图、几许图画、散点图和科学图形等图画类型时,其体现挨近乃至超过了人类。
在 test 子集的评价中,试验比较了最佳的两个大言语模型(CoT/PoT GPT-4)和最好的开源大型多模态模型(LLaVA),供给了一个全面的模型功能概览。
下面是更为具体的剖析。
Bard 在 MathVista 中的体现
在 MathVista 上的评价显现,Bard 模型的全体体现紧随 GPT-4 之后。经过具体事例剖析,陈述发现 Bard 模型常常产生所谓的 “幻觉现象”,即在生成的答案中引进了问题文本和图片中不存在的信息。
此外,Bard 在进行数学运算时也简单呈现过错。
例如,鄙人面的例子中,Bard 在简化分式 8/10 的进程中犯了核算过错。这种问题突显了模型在处理数学问题时的局限性。
GPT-4 在 MathVista 上的体现
虽然 GPT-4 本质上是一种言语模型,但经过东西增强(例如 OCR 文字和 captioning 描绘的结合),它在 MathVista 上的功能可以达到与多模态模型 Bard 相当的水平。
具体来说,当引进这些图片的 OCR 文字和 Captioning 描绘作为辅助输入信息时,GPT-4 可以成功处理许多多模态数学问题。这一发现显现了 GPT-4 在多模态问题处理方面的潜力。
但是,GPT-4 对这些增强信息的精确性有着极高的依赖性。
假如这些 OCR 文字或 Captioning 描绘存在过错或不精确性,GPT-4 在推理进程中就很简单走向过错的方向,然后导致不正确的成果。
这一点凸显了在运用东西增强壮型言语模型时,输入信息质量的重要性。
GPT-4V 在 MathVista 上的全方位剖析
GPT-4V 作为现在最先进的多模态大模型,对其才能的深入剖析对未来的研讨具有重要意义。陈述经过很多实例翔实剖析了 GPT-4V 在不同维度的才能,特别是在自我验证、自洽性和多轮对话方面的巨大潜力。
- 代数推理才能:
在 MathVista 的代数问题中,GPT-4V 展示了了解图画中函数并揣度其性质的超卓才能,乃至超过了其他大型模型和人类。但在处理低分辨率图画和多函数图画时,GPT-4V 仍面临应战。
- 数值核算才能:
MathVista 中的算术问题不仅需要精确的根底运算,还需了解多样化视觉场景。如下图所示,GPT-4V 在此方面相比现有模型体现出明显的提高。
- 几许推理才能:
在几许推理方面,GPT-4V 在 MathVista 上的体现与人类相当。在以下两个例子中,无论是小学难度仍是高年级难度的问题,GPT-4V 均能给出正确答案,并附有具体解释。
- 逻辑推理才能:
在 MathVista 的逻辑推理问题中,模型需从笼统图形中推导出数字或形状的隐含规律。GPT-4V 在这方面遇到了应战,其精确率仅为 21.6%,仅略高于随机猜想的 8.1%。
- 数值常识推理才能:
MathVista 中的数值常识推理触及日常物品和名人常识。这类问题对大型模型是一大应战。例如,下图所示的问题中,只有 GPT-4V 能正确了解图画中的光学幻觉现象。
但是,某些情况下,例如辨认烧杯的最大容量,GPT-4V 与 Bard 模型均体现欠安。
- 科学推理才能:
在 MathVista 的科学推理问题上,GPT-4V 明显优于其他大型模型。它常常能精确解析触及特定科学范畴的图中信息,并进行后续推理。
但是,某些根本概念的运用,如相对运动,仍是 GPT-4V 的缺点。
- 核算推理才能:
GPT-4V 在了解 MathVista 中的各种图表、绘图和图形方面展示出强壮的核算推理才能。它能精确解答触及图表剖析的数学问题,超过了其他大型模型。
GPT-4V 的自我验证才能探求
**自我验证(self-verification)**是一种社会心理学概念,其中心观点是个别希望别人按照他们自我感知的办法来了解他们。这导致个别自动采取行动,保证别人能看到他们的稳定状况(Talaifar & Swann, 2020)。
在试验中,研讨人员表示 GPT-4V 显现出了一品种似的自我验证才能。
这种才能体现在 GPT-4V 可以在推理进程中自主检查本身的行为,并自动纠正可能的过错。
值得注意的是,这种自我验证才能不同于仅依赖外部反应或多轮对话来改进模型输出。
例如,在某些情况下,GPT-4V 可以在单次输出中自行审核一组候选答案,然后辨认出契合所有给定条件的有用答案。
在以下多步推理问题中,GPT-4V 显现出了明显的才能。它不仅可以进行连贯的推理,还能验证关键步骤的有用性。
特别是在遇到无效的中心成果时,如发现得出的长度为负数,GPT-4V 可以自动检测并辨认这些过错。这种才能使得 GPT-4V 在辨认问题后,可以测验采用不同的办法来处理问题,然后优化其推理进程。
GPT-4V 的自洽性运用及其局限性
自洽性(self-consistency)是在大型言语模型中广泛运用的一种技能,目的是提高模型在处理杂乱推理使命时的精确性。这种办法一般包含采样多种推理路径,并选择呈现频次最高的答案作为最终解。
研讨人员的试验验证了自洽性技能在提高 GPT-4V 在 MathVista 上的功能方面的有用性。
试验标明,自洽性关于纠正 GPT-4V 在视觉感知和核算中的过错,以及削减幻觉现象方面起到了明显效果。
但是,试验也提醒了自洽性的局限性。特别是在 GPT-4V 难以正确了解杂乱的视觉场景的情况下,自洽性的改进效果并不明显。
这标明,虽然自洽性是一种有用的提高办法,但它的成功在很大程度上仍是依赖于模型对视觉信息的根本了解才能。
GPT-4V 在 MathVista 上的多轮对话才能
微软的陈述最终探讨了 GPT-4V 在 MathVista 上进行多轮人机互动对话的才能。
试验成果标明,GPT-4V 擅长在多轮对话中有用地运用用户供给的提示来优化其推理进程。
这包含根据用户的引导来纠正视觉感知上的误解,批改推理逻辑中的不一致,更正相关范畴的常识,乃至在人类的协助下了解和处理极其杂乱的图表问题。
Pan Lu
Pan Lu 是加州大学洛杉矶分校(UCLA)的博士生,是 UCLA 自然言语处理试验室(NLP Group)和视觉、认知、学习和自主中心(VCLA)的成员。
在此之前,他在清华大学获得核算机科学硕士学位。他曾在微柔和艾伦人工智能研讨院进行过实习。
他是 ScienceQA 和 Chameleon 等作业的作者。他曾荣获亚马逊博士奖学金、彭博社博士奖学金和高通立异奖学金。
Tony Xia
Tony Xia 是斯坦福大学核算机系的硕士生。此前,他在加州大学洛杉矶分校获得核算机本科学位。
Jiacheng Liu
Jiacheng Liu 是华盛顿大学的博士生,从事常识推理、数学推理和文本生成的研讨。
此前,他在伊利诺伊香槟分校取得本科学位。他曾获高通立异奖学金。
Chunyuan Li
Chunyuan Li 是微软雷德蒙德研讨院的首席研讨员。
此前,他在杜克大学获得了机器学习博士学位,师从 Lawrence Carin 教授。他曾担任过 NeurIPS、ICML、ICLR、EMNLP 和 AAAI 的范畴主席,以及 IJCV 的客座修改。
他是 LLaVA、Visual Instruction Tuning 和 Instruction Tuning 等作业的作者。
Hao Cheng
Hao Cheng 是微软雷德蒙德研讨院的高档研讨员,一起也是华盛顿大学的兼职教授。
此前,他在华盛顿大学获得了博士学位。他是 2017 年 Alexa Prize 冠军团队的首要成员。
论文地址:arxiv.org/abs/2310.02…
项目地址:mathvista.github.io/
HF 数据集:huggingface.co/datasets/AI…
数据可视化:mathvista.github.io/#visualizat…
Leaderboard:mathvista.github.io/#leaderboar…
版权所有,未经授权不得以任何方式转载及运用,违者必究。