今日,一年一度的高考正式拉开帷幕。

与往年不同的是,当全国考生奔赴考场的一起,还有一些大言语模型也成为了这场比赛中的特别选手。

跟着 AI 大言语模型越来越多地体现出挨近人类智能,面向人类设计的高难度、归纳性考试被越来越多地引进到对言语模型的智能水平进行评测。

比如,在关于 GPT-4 的技能陈述中,OpenAI 就首要通过各领域的考试对模型才能进行查验,而 GPT-4 展现出的优异「应试才能」也是出人意料。

中文大言语模型挑战高考卷的成果怎么?是否能够赶超 ChatGPT ?让我们来看看一位「考生」的答题体现。

归纳 “大考”:“墨客・浦语” 多项成果领先于 ChatGPT

近日,商汤科技、上海 AI 实验室联合香港中文大学、复旦大学及上海交通大学发布千亿级参数大言语模型 “墨客・浦语”(InternLM)。

“墨客・浦语” 具有1040 亿参数,是在包含1.6 万亿 token的多语种高质量数据集上练习而成。

全面评测成果显现,“墨客・浦语” 不仅在常识把握、阅览了解、数学推理、多语翻译等多个测验任务上体现优异,并且具备很强的归纳才能,因而在归纳性考试中体现杰出,在多项中文考试中获得逾越 ChatGPT 的成果,其间就包括我国高考各个科意图数据集(GaoKao)。

“墨客・浦语” 联合团队选取了 20 余项评测对其进行查验,其间包含全球最具影响力的四个归纳性考试评测集

  • 由伯克利加州大学等高校构建的多任务考试评测集 MMLU;
  • 微软研讨院推出的学科考试评测集 AGIEval(含我国高考、司法考试及美国 SAT、LSAT、GRE 和 GMAT 等);
  • 由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文言语模型的归纳性考试评测集 C-Eval;
  • 以及由复旦大学研讨团队构建的高考题目评测集 Gaokao;

实验室联合团队对 “墨客・浦语”、GLM-130B、LLaMA-65B、ChatGPT 和 GPT-4 进行了全面测验,针对上述四个评测集的成果比照如下(满分 100 分)。

中文大语言模型赶考:商汤与上海AI Lab等新发布「书生浦语」

“墨客・浦语” 不仅显着逾越了 GLM-130B 和 LLaMA-65B 等学术开源模型,还在 AGIEval、C-Eval,以及 Gaokao 等多个归纳性考试中领先于 ChatGPT;在以美国考试为主的 MMLU 上完成和 ChatGPT 相等。这些归纳性考试的成果反映出 “墨客・浦语” 扎实的常识把握程度和优异的归纳才能

尽管 “墨客・浦语” 在考试评测上获得优异成果,但在测评中也能够看到,大言语模型依然存在不少才能限制性。“墨客・浦语” 受限于 2K 的语境窗口长度(GPT-4 的语境窗口长度为 32K),在长文了解、杂乱推理、编撰代码以及数理逻辑演绎等方面还存在显着限制。另外,在实践对话中,大言语模型还普遍存在错觉、概念混杂等问题。这些限制使得大言语模型在开放场景中的运用还有很长的路要走。

四个归纳性考试评测数据集成果

MMLU 是由伯克利加州大学(UC Berkeley)联合哥伦比亚大学、芝加哥大学和 UIUC 一起构建的多任务考试评测集,包括了初等数学、物理、化学、计算机科学、美国前史、法令、经济、交际等多个学科。

细分科目成果如下表所示。

中文大语言模型赶考:商汤与上海AI Lab等新发布「书生浦语」

图中粗体表明成果最佳,下划线表明成果第二

AGIEval是由微软研讨院在本年新提出的学科考试评测集,首要方针是通过面向的考试来评价言语模型的才能,从而完成模型智能和人类智能的比照。

这个评测集根据我国和美国各类考试构建了 19 个评测大项,包括了我国各科高考、司法考试以及美国的 SAT、LSAT、GRE 和 GMAT 等重要考试。值得一提的是,在这 19 个大项有 9 个大项是我国高考,通常也列为一个重要的评测子集 AGIEval (GK)。

下列表格中,带 GK 的是我国高考科目。

中文大语言模型赶考:商汤与上海AI Lab等新发布「书生浦语」

图中粗体表明成果最佳,下划线表明成果第二

C-Eval是由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文言语模型的归纳性考试评测集。

它包含了 52 个科意图近 14000 道考题,包括数学、物理、化学、生物、前史、政治、计算机等学科考试,以及面向公务员、注册会计师、律师、医师的工作考试。

测验成果能够通过 leaderboard 获得。

中文大语言模型赶考:商汤与上海AI Lab等新发布「书生浦语」

cevalbenchmark.com/static/lead…

Gaokao是由复旦大学研讨团队构建的根据我国高考题意图归纳性考试评测集,包含了我国高考的各个科目,以及选择、填空、问答等多种题型。

在 GaoKao 测评中,“墨客・浦语” 在逾越 75% 的项目中均领先 ChatGPT。

中文大语言模型赶考:商汤与上海AI Lab等新发布「书生浦语」

分项评测:阅览了解、推理才能体现出色

为防止 “偏科”,研讨人员还通过多个学术评测集,对 “墨客・浦语” 等言语模型的分项才能进行了评测比照。

成果显现, “墨客・浦语” 不仅在中英文的阅览了解方面体现杰出,并且在数学推理、编程才能等评测中也获得较好成果

中文大语言模型赶考:商汤与上海AI Lab等新发布「书生浦语」

常识问答方面,“墨客・浦语” 在 TriviaQA 和 NaturalQuestions 两项评测上得分为 69.8 和 27.6,均逾越 LLaMA-65B(得分为 68.2 和 23.8)。

阅览了解(英语) 方面,“墨客・浦语” 显着领先于 LLaMA-65B 和 ChatGPT。浦语在初中和高中英语阅览了解中得分为 92.7 和 88.9,ChatGPT 得分为 85.6 和 81.2,LLaMA-65B 则更低。

中文了解方面,“墨客・浦语” 成果全面逾越首要的两个中文言语模型 ERNIE-260B 和 GLM-130B。

多语翻译方面,“墨客・浦语” 在多语种互译中的平均得分为 33.9,显着逾越 LLaMA (平均得分 15.1)。

数学推理方面,“墨客・浦语” 在 GSM8K 和 MATH 这两项被广泛用于评测的数学考试中,别离获得 62.9 和 14.9 的得分,显着领先于 Google 的 PaLM-540B(得分为 56.5 和 8.8)与 LLaMA-65B(得分为 50.9 和 10.9)。

编程才能方面,“墨客・浦语” 在 HumanEval 和 MBPP 这两项最具代表性的考评中,别离获得 28.1 和 41.4 的得分 (其间经过在代码领域的微调后,在 HumanEval 上的得分能够提升至 45.7),显着领先于 PaLM-540B(得分为 26.2 和 36.8)与 LLaMA-65B(得分为 23.7 和 37.7)。

此外,研讨人员还对 “墨客・浦语” 的安全性进行评测,在 TruthfulQA(首要评价答复的现实准确性) 以及 CrowS-Pairs(首要评价答复是否含有成见)上,“墨客・浦语” 均到达领先水平。

关于 “墨客・浦语” 的技能陈述已在揭露,陈述对模型的技能特点以及测验成果进行了详细论述,了解更多可访问:github.com/InternLM/In…

THE END