Llama 2高调开源颠覆大模型圈！2万亿token训练，打不过GPT3.5-六虎

一觉醒来，Meta直接丢了一颗重磅核弹：Llama 2！

继LLaMA开源后，Meta今日联手微软高调开源Llama 2，一共有7B、13B、70B三个版别。

据介绍，Llama 2接受了2万亿个token练习，上下文长度4k，是Llama 1的2倍。微调模型已在超100万个人类标示中进行了练习。

Llama 2的体现更是秒杀许多开源语言模型，在推理、编码、才能和常识测验上取得了SOTA。

最最最重要的是，这次Llama 2不只可以研讨，乃至能免费商用！（划要点）

今年2月，Llama 1开源后，Meta收到了10万多个拜访大型语言模型的请求。

没想到，Llama的开放瞬间让AI社区模型大爆发，UC 伯克利的Vicuna、斯坦福Alpaca等各种系列「羊驼」蜂拥而出。

这次，Llama 2的开源直接向OpenAI和谷歌发起应战。

在OpenAI和谷歌独占鳌头下，Meta此举想通过另辟蹊径改变大模型AI之争的格式。

LeCun表示，Llama 2免费商用将直接改变大型语言模型的商场格式。

一夜封神，但还不如GPT-3.5

Llama 2的横空出世，没想到，直接被一众网友「封神」。

Meta，你的王冠掉了

就连GPT-4，被推下了战场。

但是，就客观来讲，Llama 2真的无所不能吗？

英伟达科学家Jim Fan称，Llama 2还没有到达GPT-3.5的水平，首要是因为其代码才能较弱。

关于Llama 2更多细节，Jim Fan和做了一个太长不爱看版：

– Llama 2的练习费用可能超越200万美元。

Meta发布商业友爱答应的模型，为社区供给了令人难以置信的服务。由于答应问题，大公司的AI研讨员对Llama-1持谨慎态度，但现在我以为他们中的很多人都会参加进来，奉献自己的力气。

– Meta团队对4K提示进行了人类研讨，以评价Llama-2的实用性。

他们运用「胜率」（win rate）作为比较模型的指标，与Vicuna基准相似。70B模型与GPT-3.5-0301大致相等，体现显着强于Falcon、MPT和Vicuna。

与学术基准比较，我更相信真实的人类评级。

– Llama-2还没有到达GPT-3.5的水平。

在HumanEval上，它还不如StarCoder或其他许多专门为编码而设计的模型。虽然如此，我毫不置疑Llama-2将因其开放的权重而得到显著改进。

– Meta团队在人工智能安全问题上竭尽全力。

事实上，这篇论文简直有一半的篇幅都在议论安全护栏、红队和评价。

在之前的研讨中，有用性和安全性之间十分难平衡。Meta通过练习2个独立的奖赏模型来缓解这一问题。这些模型还没有开源，但对社区来说十分有价值。

– Llama-2将极大地推进多模态人工智能和机器人研讨。

这些范畴需求的不只仅是黑盒子拜访API。到现在为止，研讨人员有必要将复杂的感官信号（视频、音频、三维感知）转换为文本描述，然后再输入到 LLM，这样做既笨拙又会导致很多信息丢掉。

而将感官模块直接「嫁接」到强壮的LLM主干上会更有效。

– 技能陈述本身便是一部创造。

GPT-4的技能陈述只分享了很少的信息，而Llama-2则不同，它详细介绍了整个recipe，包含模型细节、练习阶段、硬件、数据管线和标题进程。例如，论文对 RLHF 的影响进行了体系分析，并供给了美丽的可视化效果。

Llama 2怎么诞生？

Llama 2最新技能陈述也同在今日发布，足足有70多页。

GenAI初次以团队称号出现

针对模型练习，与ChatGPT相同，Llama 2也是经历了预练习（Pretraining）、微调（Fine-tuing）和人类反应强化学习（RLHF）三个阶段。

除了开源了Llama 2，Meta依据Llama 2微调了Llama 2-Chat模型。

在各大基准测验上，Llama 2在推理等方面体现恰当出色。

接下来，详细看看Llama 2是怎么诞生的吧。

预练习

为了创建新的Llama 2，Meta的研讨人员首要采用了Touvron等人所运用的预练习方法，使用了优化的自回归Transformer。

但是，为了进一步进步功能，Meta团队做了一些改动。

详细来说，研讨人员进行了更稳健的数据整理，更新了数据组合，且练习的符号总数增加了40%，上下文长度增加了一倍，还运用了GQA（Group Query Attention）来进步大型模型推理的可扩展性。

下表比较了Llama 2和Llama 1的属性差异。

在预练习数据方面，Meta的练习语料库包含公开来历的各种新数据组合，但并不包含来自Meta自家产品或服务中的数据。

另外，研讨人员尽力删除了某些已知包含很多个人隐私信息的网站的数据信息。

Meta团队在2万亿个token的数据上进行了练习（如上表所示），这样做可以很好地权衡功能和本钱，并对最真实的数据源进行取样，以增加常识和削减幻觉。

练习细节方面，Meta团队既有沿用也有立异。

研讨人员沿用了Llama 1中的大部分预练习设置和模型架构，运用规范的Transformer架构，以及RMSNorm进行预规范化，还用了SwiGLU激活函数和旋转方位嵌入。

与Llama 1在结构上的首要区别在于，增加了上下文长度和GQA（Group Query Attention）（如上表所示）。

下图则展示了Llama 2的练习损耗。

研讨人员比较了Llama 2系列不同大小模型的练习损耗别离是多少，Meta团队发现，在对2T数量的token进行预练习后，模型仍旧没有出现任何饱满的痕迹。

评价

接下来研讨人员陈述了Llama 1和Llama 2、MPT和Falcon模型在一些规范的学术基准上的功能测验效果。

在一切评价中，Meta团队都使用了内部评价库，在内部重现了MPT和Falcon模型的测验效果。

对于这些模型，研讨人员总是在评价结构和任何公开陈述的效果之间选取最高分进行比较。

在表3中，研讨人员总结了LlaMa 2在一系列常用基准上的整体功能体现。以下是这些常用的基准大致介绍：

代码：研讨人员陈述了模型在HumanEval和MBPP上的均匀pass@1分数。
常识推理：研讨人员人员陈述了PIQA、SIQA、HellaSwag、WinoGrande、ARC easy and challenge、OpenBookQA和CommonsenseQA等项目的均匀得分，还有CommonSenseQA的7-shot测验效果和一切其他基准的0-shot测验效果。
常识面：研讨人员评价了NaturalQuestions和TriviaQA的5-shot效果，以及均匀效果。
阅读理解才能：研讨人员陈述了SQuAD、QuAC和BoolQ的0-shot均匀效果。
数学才能：研讨人员陈述了GSM8K（8-shot）和MATH（4-shot）基准的均匀效果，陈述榜首。
其它抢手的归纳基准：研讨人员陈述了MMLU（5-shot）、Big Bench Hard（BBH）（3-shot）和AGI Eval（3-5shot）的整体效果。其间，对于AGI Eval，研讨人员只对英语相关的使命进行了评价并陈述了均匀值。

详细数据

从上表中可以看出，Llama 2要优于Llama 1。尤其是和Llama 1-65B的模型比较，Llama 2-70B在MMLU和BBH上的效果别离进步了5分和8分。

除代码基准外，Llama 2-7B和30B的模型在一切测验上都优于平等规划的MPT模型。

就Falcon模型而言，在一切基准测验中，Llama 2-7B和34B的体现都要比Falcon-7B和40B的模型更好。

此外，Llama 2-70B模型也优于一切开源模型。

除了和开源模型作比，Meta团队还将Llama 2-70B的效果与闭源模型进行了比较。

如下表所示，Llama 2-70B在MMLU和GSM8K上的得分接近GPT-3.5，但在编码基准上有显着距离。

在简直一切的基准测验上，Llama 2-70B的效果都与PaLM 540B恰当，乃至更好。

而Llama 2-70B与GPT-4和PaLM-2-L之间的功能距离依然很大。

微调

Llama 2-Chat是Meta团队数月研讨，并迭代使用了对齐技能（包含指令微调和RLHF）的效果，需求很多的计算和标示。

监督微调 (SFT)

第三方的SFT数据可以从许多不同来历获得，但Meta团队发现，其间许多数据的多样性和质量都不够，尤其是让LLM与对话指令坚持一致这一方面。

因而，研讨人员首要要点搜集了数千个高质量的SFT数据示例，如上图所示。通过放下来自第三方数据集的数百万个示例，运用质量较高的示例，研讨效果得到了显着改进。

研讨人员发现，在一共搜集到27540条标示后，SFT标示获得了高质量的效果。

为了验证数据质量，研讨人员仔细查看了一组180个示例，比较了人类供给的标示和模型通过人工查看生成的样本。

出乎意料的是，研讨人员发现SFT模型生成的样本输出，往往能与人类标示者手写的SFT数据相媲美。

这表明研讨人员可以调整优先级，将更多的注释精力投入到依据偏好的RLHF标示中。

在监督微调中，研讨人员运用余弦学习率方案（cosine learning rate schedule），初始学习率为2乘以10的负5次方，权重衰减为0.1，批量大小为64，序列长度为4096个符号。

在微调进程中，每个样本包含一个提示和一个答案。

为保证模型序列长度得到恰当填充，研讨人员将练习会集的一切提示和答案连接起来，并运用一个特别的符号来分隔提示和答案片段。

研讨人员运用自回归目标，将来自用户提示的符号损失归零，因而，只对答案符号进行反向的传达。

最后，研讨人员对模型进行了2次微调。

人类反应强化学习 (RLHF)

Meta团队搜集的数据代表了人类偏好的经历取样，人类标示者可以依据这个来挑选他们更喜欢的2种模型输出。

这种人类反应随后被用于练习奖赏模型，该模型可学习人类标示者的偏好模式，然后自动做出偏好决定。

与其他方案比较，团队挑选了二进制比较协议（binary comparison protocol），首要是因为它能让研讨人员最大极限地进步所搜集提示的多样性。

研讨人员列出了用于奖赏建模的开源数据，以及内部搜集的人类偏好数据。

请注意，二进制人类偏好比较包含共享相同提示的2个响应（挑选和不选）。每个示例都由一个prompt和一个回复组成，后者是奖赏模型的输入。

研讨人员陈述了比较的次数、每次对话的均匀回合数、每个示例、每个prompt和每个回复的均匀符号数。

用于奖赏建模的人类偏好数据计算：

下表即是准确率方面的效果。

奖赏模型效果

Meta自己的奖赏模型在依据Llama 2-Chat搜集的内部测验集上体现最佳，其间有用性奖赏模型在元有用性（Mega Helpful）测验集上体现最佳。

同样，安全性奖赏模型在元安全性（Mega Safety）测验集上体现最佳。

整体而言，Meta的奖赏模型优于包含GPT-4在内的一切模型。

有趣的是，虽然GPT-4没有通过直接练习，也没有专门的针对奖赏建模使命，但它的体现却优于其它模型。

在每一批用于奖赏建模的人类偏好标示中，研讨人员都会拿出1000个例子作为测验集来评价模型。

研讨人员将相应测验集的一切提示的集合别离称为元有用性（Meta Helpful）和元安全性（Meta Safety）。

作为参考，研讨人员还评价了其他公开的替代方案：依据FLAN-T5-xl的SteamSHP-XL、依据DeBERTa V3 Large的 Open Assistant的奖赏模型以及GPT4。

请注意，推理时与练习时不同，一切奖赏模型都可以猜测单个输出的标量，而无需拜访其配对输出。

当然，更多的数据和更大的模型通常会进步准确率，而Meta的模型现在似乎还没有从练习数据的学习中到达饱满。

如下图所示。

更多有关RLHF的内容请参看论文原文。

多轮一致性体系音讯

在对话设置中，有些指令应该适用于一切的对话场合，例如，简明扼要地做出回应，或者扮演某个公众人物等等。

当研讨人员向Llama 2-Chat供给这样的指令时，给出的回应应始终恪守该束缚。

然而，开始的RLHF模型往往会在几轮对话后忘掉开始的指令，如下图所示。

为了处理这些局限性，Meta团队提出了「鬼魂注意力」（GAtt），这是一种十分简单的方法，运用微调数据协助模型的注意力在多阶段进程中坚持会集。

使用了GAtt后，效果如下图所示，咱们可以看到，GAtt能在多个回合中完成对话控制。

下图为使用了GAtt和没有使用GAtt的对话注意力可视化图。

研讨人员考虑了整个网络的最大激活度，并将相邻的符号放在一起。

为了阐明GAtt是如安在微调进程中协助重塑注意力，上图显现了模型的最大注意力激活。每幅图的左侧都对应着体系信息。

咱们可以看到，与未安装GAtt的模型（左）比较，安装了GAtt的模型（右）在对话的大部分时间里都能对体系信息坚持较大的注意力激活。

但是，虽然GAtt很有用，但它现在的完成进程还很粗糙，对这项技能进行更多的开发和迭代才会使模型进一步受益。

RLHF的效果

当然，评价LLM是一个具有应战性的开放性研讨问题。人工评价虽然是一个不错的规范，但会因各种人机交互考虑要素而变得复杂，并且并不总是可扩展的。

因而，为了在从RLHF-V1到V5的每次迭代中从多个模型中选出体现最佳的模型，Meta的研讨人员首要调查了最新奖赏模型的奖赏改进状况，以节约本钱并进步迭代速度。

随后，在通过人工评价对首要模型版别进行了验证。

下图是Llama 2-Chat的演化。

研讨人员展示了通过屡次迭代微调后，Llama 2-Chat与ChatGPT比照胜率百分比的演化。

左边的裁判是Meta的奖赏模型，可能会向着他们自己的模型，右图的裁判则是GPT-4，其效果应该会更中立。

而就像上面提到的相同，人工评价通常被以为是评判自然语言生成模型（包含对话模型）的黄金规范。

为了评价首要模型版别的质量，Meta请人类评价员对它们的有用性和安全性进行了评分。

研讨人员将Llama 2-Chat模型与开源模型（Falcon、MPT），以及闭源模型（ChatGPT) 和PaLM在超越4000个单轮和多轮的prompt上进行了比较。

对于ChatGPT，研讨人员在各代中都运用了gpt-3.5-turbo-0301的模型。对于PaLM，则运用的是chat-bison-001模型

下图即为评价效果——

可以看到，Llama 2-Chat模型在单匝和多匝提示上的体现都显着优于开源模型。

特别是，在60%的提示中，Llama 2-Chat 7B模型都优于MPT-7B-chat。

而Llama 2-Chat 34B与平等大小的Vicuna-33B和Falcon 40B比较，整体胜率超越75%。

此外，最大的Llama 2-Chat模型与ChatGPT比较，70B版别的胜率为36%，平局率为31.5%。

在Meta研讨人员的pompt集上，Llama 2-Chat 70B模型在很大程度上都优于PaLM-bison的谈天模型。

商用约束：不超越7亿用户

Llama-2商业免费用，对Meta来说，仍是初次。

不过，并非是肯定免费。

依据答应条款，Meta规则不能Llama-2的数据或输出来改进任何其他 LLM，与OpenAI相似，但在OSS模型中并不常见。

另外，假如产品MAU在2023年6月超越7亿用户，有必要申请特别商业答应。

除上述状况外，运用、复制、分发、复制、创造衍生著作和修改 Llama-2 都是免版税的。

详细可参见：github.com/facebookres…

强强联手，微软成人生赢家

要说最大的人生赢家，非微软莫属了。

一边联手OpenAI推出GPT-4加持的付费版Office，另一边牵着Meta的手，欢迎Llama 2在Azure和Windows登台。

今日，小扎还在Ins上发布了自己和纳德拉合影。

再把上半年，纳德拉和Sam Altman的合照拿出来，瞬间有种OpenAI遭到背刺的感觉。

再加上网友的配文：纳德拉在开放式和封闭式Al之间，做出了令人惊讶和赞叹的行为。（是高手）

据Meta官博介绍，咱们将与微软的协作伙伴关系提升到一个新的水平，成为Llama 2的首选协作伙伴。

Llama 2在Azure人工智能模型库中可用。运用微软Azure的开发人员可以运用它进行构建，并运用云原生东西进行内容过滤。

它还通过优化，可以在Windows上本地运转，为开发人员供给无缝的工作流程。

另外，Llama 2也可以通过AWS、Hugging Face和其他平台获得。

据称，Llama 2在亚马逊AWS上运转70B模型，1年，最低要求大约需求8.50万美元。

此外，今日Meta还宣告了与高通联手协作，方案从2024年起在旗舰智能手机和个人电脑上供给依据Llama 2的才能。

让开发人员可以运用Snapdragon平台的AI，推出令人兴奋的新生成式人工智能使用。

网友试玩，Mac可跑

Llama 2的开源，便是AI社区的大狂欢。

许多网友纷繁用Midjourney各种AI东西生成羊驼，来问候这一重要时间。

小扎也被封神了。

小扎你是我滴神

HuggingFace的负责人称，Meta在开源人工智能范畴的影响力不断扩大，已经在Hugging Face上发布了600+模型，如MusicGen、Galactica、Wav2Vec等。

Llama 2开源后，榜首步，开启试玩。

已确认。Llama 2-70B可在48GB的单GPU上轻松练习。70B 4位QLoRA和A6000畅通无阻。

Llama 2-7B已转换为Core ML，并以每秒~6.5个token的速度在Mac本地运。

我刚才运用这个项目的最新版别在我的Mac上运转了Llama 2：github.com/jmorganca/o…

很多人都在问Llama 2与其他盛行模型比较怎么？

与其他相似规划的模型比较，Llama 2显然更胜一筹，并且依据基准测验，Llama 2 是最佳的OS模型！

参考资料：

ai.meta.com/llama/?utm_…

Llama 2高调开源颠覆大模型圈！2万亿token训练，打不过GPT3.5

预练习

微调

监督微调 (SFT)

人类反应强化学习 (RLHF)

多轮一致性体系音讯

RLHF的效果

相关文章

Java项目学生管理系统一前后端环境搭建

【Flutter&Flame 游戏 – 贰捌】pinball 源码分析 – 游戏主场景的构成

Stable Diffusion WebUI 各操作系统安装教程

五、Android绘制知识总结(Xfermode和硬件加速)

作者信息