Llama-2首个全方位评测，国内外开源模型大比拼-六虎

进入2023年7月，大言语模型（LLM）的开展进入了新阶段，开源成为一个火热的主题。

7月6日，上海人工智能实验室与商汤科技等联合发布了墨客浦语开源系统（github.com/InternLM），不…
7月14日，智谱科技敞开ChatGLM2-6B免费商用；
7月19日，Meta开源了功能更强的Llama-2，也供给了愈加宽松的商用许可。

面对言语模型的新一波开源浪潮，图灵奖得主Yann Lecun在推特上评价：

This is going to change the landscape of the LLM market.

但是，开源模型的体现是否能够当得起业界的热切等待？

咱们在拿到Llama-2的系列开源模型后，通过OpenCompass对它进行了全方位的评测（opencompass.org.cn）。

Llama-2有多强

Llama-2比较Llama-1有不少技能层面的改善，从而带来了模型功能、推理功率以及安全性等方面的有效提高。具体而言，重要的改善有以下几点：

模型架构上使用Group-Query-Attention(GQA)来进步模型推理功率，语境长度从2K增加一倍到4K。
预练习语料从1.4T tokens增加到2T tokens。
在监督微调（SFT）阶段愈加注重数据集质量，使用更少但质量更高的SFT数据比较使用百万量级的揭露SFT数据，效果显著提高。
引入了三项安全练习技能Supervised Safety Fine-Tuning、Safety RLHF、Safety Context Distillation 提高模型的安全性。

比较前代功能大增，仍难媲美ChatGPT

那么，Llama-2的全体才能终究怎么呢？

虽然在官方技能报告中现已展示了在20个左右数据集上的测验成果，但评价才能维度仍然有限，比照的模型也还不够全面。

这里咱们借助开源评测工具OpenCompass，对Llama-2发布的各个模型在40多个评测集进步行了全方位的评测，从学科、言语、常识、了解、推理五大维度归纳衡量大模型的才能。

成果能够总结为以下的雷达图：

下表列出Llama、Llama-2、以及ChatGPT在几个有代表性评测集上的体现：

更全面和具体的评测成果数字请参看opencompass.org.cn。

比较上代模型全面提高：

从归纳才能视点，Llama-2-70B（绿色）比较于Llama-1-65B（紫色）更胜一筹，在言语、常识、推理、了解、学科等各个才能维度比较Llama-1都有显着提高。比方归纳考试集MMLU上从63.71提高到69.75，GSM8K 上从54.51提高到63.46。

对话和基座模型根本相等：

经过微调和对齐的模型Llama-2-70B-Chat（黄色）比较基座模型Llama-2-70B（绿色），归纳才能根本相等，在言语、推理和了解上比较基座有功能提高，在学科归纳才能和常识才能上略有下降。比方翻译评测集Flores和代码评测集HumanEval上，Chat模型别离有超越40%和20%的相对提高，而在MMLU和TrivialQA上则有大约10%的相对降低。

离ChatGPT仍有较大距离：

比较ChatGPT-0613（蓝色），Llama-2-70B-Chat（黄色）仍需持续追逐，尤其在推理才能、了解才能、和学科归纳才能上距离还比较显着。其间数学评测集MATH和代码评测集HumanEval的距离都超越了一倍。

中文才能短板显着

在Llama的练习语料中，中文占比较小，微调阶段也没有针对中文进行调优，所以当前Llama-2-Chat在中文问题上仍显不足。

一个典型的体现就是给定中文问题时，模型还是会以英文答复。

为了对Llama-2的中英文才能有更深入的了解，咱们选取了OpenCompass中的中英文数据集进行别离分析。

成果显现：

Llama-2在英言语语才能、常识水平和了解才能上现已较为接近ChatGPT。
Llama-2在中文才能上全方位差劲于ChatGPT。这一成果表明，Llama-2本身作为基座模型直接支撑中文应用并不是一个特别优异的选择。
推理才能上，不管中英文，Llama-2距离ChatGPT仍然存在较大距离。由此可见，对于大模型来说，推理才能提高的难度比基础言语才能提高的难度要高得多。

安全对齐让模型过度慎重

Llama-2的一大特征是它在练习过程中采用了比较完善的安全对齐计划，在价值对齐和安全性上有较大提高。

但在测验中咱们也发现，Llama-2的安全性和模型才能的平衡没有做得特别好，模型非常谨言慎行，对于很多常见问题都回绝回复。

国内模型不落劣势

近几个月，国内大模型开展迅速，多个企业和科研机构都发布了各自的大模型，其间不乏千亿参数的大模型。

那么国内大模型和Llama-2比较，终究体现怎么呢？很多朋友都关怀这个问题。

重量级模型的比照

国内机构发布的70B或者更高量级的模型遍及没有开源，很多模型只通过内测API供给有限服务，因而咱们还很难获得对很多国产模型的全量评测数据。

在OpenCompass上，由上海人工智能实验室和商汤科技联合多所高校发布的千亿参数墨客浦语模型（InternLM-104B）现已有了全面的评测成果。

基于这个成果，咱们比较了墨客浦语和ChatGPT与Llama-2的功能：

在重量级模型的比照中，墨客浦语体现优异，在大部分主流评测集上抢先于Llama-2以及ChatGPT。具体而言，在43个评测会集，InternLM-104B在34个评测会集超越ChatGPT，在41个评测集上超越Llama-2-70B。

中文考试大幅抢先：

在中文考试评测集CEval和高考评测集GAOKAO-Bench上，InternLM-104B都大幅超越Llama2-70B。

言语才能略有优势：

在中英文的基础言语任务上，包括字词了解，成语习语，翻译等评测集上，InternLM-104B都有优势，其间中文评测集上距离更大。

阅览了解“墨客”当之无愧：

在中英文的各类阅览了解评测集上，InternLM-104B均体现出显着的优势，从文本段中总结和了解关键信息的才能更胜一筹。

推理才能略胜一筹：

在常识推理、数学推理、归纳推理的各种数据集上，InternLM-104B都有比较稳定的发挥，比较Llama2-70B有必定优势。

常识问答平分秋色：
在BoolQ，CommonSenseQA，TrivialQA，NaturalQuestion等常识问答评测集上，两个模型体现适当，可见常识水平没有显着差异。

代码才能互有胜负：

InternLM-104B和Llama2-70B的代码才能平起平坐，HumanEval和 MBPP两个数据集上互有胜负。

轻量级模型的比照

重量级赛道上你追我赶，在7B量级的轻量级赛道上，开源模型的竞赛也非常活泼。

在很多国内开源模型之中，百川智能发布的Baichuan-7B、清华大学和智谱AI发布的ChatGLM2-6B、上海人工智能实验室发布的InternLM-7B等优异模型广受业界重视。

咱们把这些国内模型和Llama-2-7B进行了全方位评测比照：

下表列出了这几个7B量级模型在几个有代表性评测集上的体现：

成果显现：Llama-2在常识才能上有显着优势。

但在学科、言语、推理和了解才能上，InternLM和ChatGLM2都现已超越了Llama-2，并且InternLM的抢先优势非常显着。

免费商用构成星火之势

几个月前Llama的开源引爆了社区，让很多开发者和研究者受益匪浅，衍生出整个羊驼宗族，但遗憾的是其协议限制商用，将企业拒之门外。

7月6日，世界人工智能大会上，墨客浦语开源系统正式发布，开源了InternLM-7B并供给免费商用许可。

之后，ChatGLM2-6B和Llama2等开源模型相继推进免费商用，顺应了开展潮流和社区呼声。

相****信开源社区的星星之火将对产业构成燎原之势，进一步降低大模型落地应用的门槛。

*本文系量子位获授权刊载，观点仅为作者所有。

—完—

Llama-2首个全方位评测，国内外开源模型大比拼

Llama-2有多强

比较前代功能大增，仍难媲美ChatGPT

中文才能短板显着

安全对齐让模型过度慎重

国内模型不落劣势

重量级模型的比照

轻量级模型的比照

免费商用构成星火之势

相关文章

🎉 dumi 2，它来了它来了它来了

程序员的狂欢——教你如何免费领取价值$200的Starknet空投

基于Angular Git commit 规范的图标代码解析

SpringBoot3 配置文件整合 Apache Avro

作者信息