已上微软 Azure,即将要上 AWS、Hugging Face。

一夜之间,大模型格式再次发生巨变。

更强的Llama 2开源,可直接商用:一夜之间,大模型格局变了

一向以来 Llama 可以说是 AI 社区内最强壮的开源大模型。但因为开源协议问题,一向不可免费商用。

今日,Meta 终于发布了我们期待已久的免费可商用版别 Llama 2。

更强的Llama 2开源,可直接商用:一夜之间,大模型格局变了

此次 Meta 发布的Llama 2 模型系列包含 70 亿、130 亿和 700 亿三种参数变体。此外还练习了 340 亿参数变体,但并没有发布,只在技能陈述中提到了。

据介绍,比较于 Llama 1,Llama 2 的练习数据多了 40%,上下文长度也翻倍,并选用了分组查询注意力机制。具体来说,Llama 2 预练习模型是在2 万亿的 token上练习的,精调 Chat 模型是在100 万人类标记数据上练习的。

更强的Llama 2开源,可直接商用:一夜之间,大模型格局变了

发布的测评效果显现,Llama 2 在包含推理、编码、精通性和知识测验等许多外部基准测验中都优于其他开源言语模型。

更强的Llama 2开源,可直接商用:一夜之间,大模型格局变了

接下来,我们就从 Meta 发布的技能陈述中,具体了解下 Llama 2。

更强的Llama 2开源,可直接商用:一夜之间,大模型格局变了

  • 论文地址:ai.meta.com/research/pu…
  • 项目地址:github.com/facebookres…

总的来说,作为一组经过预练习和微调的大言语模型(LLM),Llama 2 模型系列的参数规模从 70 亿到 700 亿不等。其间的 Llama 2-Chat 针对对话用例进行了专门优化。

更强的Llama 2开源,可直接商用:一夜之间,大模型格局变了

Llama 2-Chat 的练习 pipeline。

Llama 2 模型系列除了在大多数基准测验中优于开源模型之外,依据 Meta 对有用性和安全性的人工评价,它或许也是闭源模型的适宜替代品。

更强的Llama 2开源,可直接商用:一夜之间,大模型格局变了

Llama 2-Chat 与其他开源和闭源模型在安全性人类评价上的效果。

Meta 具体介绍了 Llama 2-Chat 的微谐和安全改进办法,使社区可以在其作业根底上继续发展,为大言语模型的负责任发展做出贡献。

预练习

为了创立全新的 Llama 2 模型系列,Meta 以 Llama 1 论文中描述的预练习办法为根底,运用了优化的自回归 transformer,并做了一些改动以提高功能。

具体而言,Meta 执行了更稳健的数据清理,更新了混合数据,练习 token 总数增加了 40%,上下文长度翻倍。下表 1 比较了 Llama 2 与 Llama 1 的具体数据。

更强的Llama 2开源,可直接商用:一夜之间,大模型格局变了

Llama 2 的练习语料库包含了来自公开可用资源的混合数据,而且不包含 Meta 产品或服务相关的数据。Llama 2 选用了 Llama 1 中的大部分预练习设置和模型架构,包含规范 Transformer 架构、运用 RMSNorm 的预归一化、SwiGLU 激活函数和旋转方位嵌入。

在超参数方面,Meta 运用 AdamW 优化器进行练习,其间 _1 = 0.9,_2 = 0.95,eps = 10^−5。一起运用余弦学习率计划(预热 2000 步),并将终究学习率衰减到了峰值学习率的 10%。

下图 5 为这些超参数设置下 Llama 2 的练习丢失曲线。

更强的Llama 2开源,可直接商用:一夜之间,大模型格局变了

在练习硬件方面,Meta 在其研讨超级集群(Research Super Cluster, RSC)以及内部出产集群上对模型进行了预练习。两个集群均运用了 NVIDIA A100。

在预练习的碳足迹方面,Meta 依据以往的研讨办法,运用 GPU 设备的功耗估算和碳效率,计算了 Llama 2 模型预练习所发生的碳排放量。

更强的Llama 2开源,可直接商用:一夜之间,大模型格局变了

预练习期间 Llama 2 各个模型的碳排放量。

Llama 2 预练习模型评价

Meta 陈述了 Llama 1、Llama 2 根底模型、MPT(MosaicML)和 Falcon 等开源模型在规范学术基准上的效果。

下表 3 总结了这些模型在一系列盛行基准上的全体功能,效果表明,Llama 2 优于 Llama 1 。

更强的Llama 2开源,可直接商用:一夜之间,大模型格局变了

除了开源模型之外,Meta 还将 Llama 2 70B 的效果与闭源模型进行了比较,效果如下表 4 所示。Llama 2 70B 在 MMLU 和 GSM8K 上接近 GPT-3.5,但在编码基准上存在明显差距。

此外,在简直一切基准上,Llama 2 70B 的效果均与谷歌 PaLM (540B) 相等或体现更好,不过与 GPT-4 和 PaLM-2-L 的功能仍存在较大差距。

更强的Llama 2开源,可直接商用:一夜之间,大模型格局变了

微调

Llama 2-Chat 是数个月研讨和迭代应用对齐技能(包含指令调整和 RLHF)的效果,需要很多的计算和注释资源。

监督微调 (SFT)

第三方监督微调数据可从许多不同来历取得,但 Meta 发现其间许多数据的多样性和质量都不够高,尤其是在使 LLM 与对话式指令保持一致方面。因而,他们首要要点搜集了几千个高质量 SFT 数据示例,如下表 5 所示。

更强的Llama 2开源,可直接商用:一夜之间,大模型格局变了

在微调过程中,每个样本都包含一个提示和一个答复。为保证模型序列长度得到正确填充,Meta 将练习集中的一切提示和答案连接起来。他们运用一个特别的 token 来分隔提示和答案片段,运用自回归方针,将来自用户提示的 token 丢失归零,因而只对答案 token 进行反向传达。终究对模型进行了 2 次微调。

RLHF

RLHF 是一种模型练习程序,适用于经过微调的言语模型,以进一步使模型行为与人类偏好和指令遵循相一致。Meta 搜集了代表了人类偏好经历采样的数据,人类注释者可据此挑选他们更喜爱的两种模型输出。这种人类反馈随后被用于练习奖赏模型,该模型可学习人类注释者的偏好模式,然后自动做出偏好决定。

下表 6 陈述了 Meta 长期以来搜集到的奖赏建模数据的统计效果,并将其与多个开源偏好数据集进行了比照。他们搜集了超越 100 万个基于人类应用指定原则的二元比较的大型数据集,也便是元奖赏建模数据。

请注意,提示和答案中的标记数因文本范畴而异。摘要和在线论坛数据的提示通常较长,而对话式的提示通常较短。与现有的开源数据集比较,本文的偏好数据具有更多的对话回合,均匀长度也更长。

更强的Llama 2开源,可直接商用:一夜之间,大模型格局变了

奖赏模型将模型呼应及其相应的提示(包含前一轮的上下文)作为输入,并输出一个标量分数来表示模型生成的质量(例如有用性和安全性)。运用这种作为奖赏的呼应得分,Meta 在 RLHF 期间优化了 Llama 2-Chat,以更好地与人类偏好保持一致,并提高有用性和安全性。

在每一批用于奖赏建模的人类偏好注释中,Meta 都拿出 1000 个样本作为测验集来评价模型,并将相应测验集的一切提示的调集分别称为「元有用性」和「元安全性」。

下表 7 中陈述了准确率效果。果然如此,Meta 自己的奖赏模型在基于 Llama 2-Chat 搜集的内部测验集上体现最佳,其间「有用性」奖赏模型在「元有用性」测验集上体现最佳,同样,「安全性」奖赏模型在「元安全性」测验集上体现最佳。

全体而言,Meta 的奖赏模型优于包含 GPT-4 在内的一切基线模型。有趣的是,尽管 GPT-4 没有经过直接练习,也没有专门针对这一奖赏建模任务,但它的体现却优于其他非元奖赏模型。

更强的Llama 2开源,可直接商用:一夜之间,大模型格局变了

缩放趋势。Meta 研讨了奖赏模型在数据和模型大小方面的缩放趋势,在每周搜集的奖赏模型数据量不断增加的情况下,对不同的模型大小进行了微调。下图 6 陈述了这些趋势,显现了预期的效果,即在类似的数据量下,更大的模型能取得更高的功能。

更强的Llama 2开源,可直接商用:一夜之间,大模型格局变了

随着收到更多批次的人类偏好数据注释,可以练习出更好的奖赏模型并搜集更多的提示。因而,Meta 练习了连续版别的 RLHF 模型,在此称为 RLHF-V1、…… , RLHF-V5。

此处运用两种主要算法对 RLHF 进行了微调:

  • 近端策略优化 (PPO);
  • Rejection 采样微调。

RLHF 效果

首要是基于模型的评价效果。下图 11 陈述了不同 SFT 和 RLHF 版别在安全性和有用性方面的进展,其间经过 Meta 内部的安全性和有用性奖赏模型进行评价。

更强的Llama 2开源,可直接商用:一夜之间,大模型格局变了

再来看人类评价效果。如下图 12 所示,Llama 2-Chat 模型在单轮和多轮提示方面均明显优于开源模型。特别地,Llama 2-Chat 7B 在 60% 的提示上优于 MPT-7B-chat,Llama 2-Chat 34B 相对于平等大小的 Vicuna-33B 和 Falcon 40B,体现出了 75% 以上的全体胜率。

更强的Llama 2开源,可直接商用:一夜之间,大模型格局变了

在这里,Meta 也指出了人工评价的一些局限性。

尽管效果表明 Llama 2-Chat 在人工评价方面与 ChatGPT 平起平坐,但必须指出的是,人工评价存在一些局限性。

  • 依照学术和研讨规范,本文拥有一个 4k 提示的大型提示集。可是,这并不包含这些模型在实际国际中的运用情况,而实际国际中的运用情况可能要多得多。
  • 提示语的多样性可能是影响效果的另一个要素,例如本文提示集不包含任何编码或推理相关的提示。
  • 本文只评价了多轮对话的终究生成。更有趣的评价办法可能是要求模型完成一项任务,并对模型在多轮对话中的全体体验进行评分。
  • 人类对生成模型的评价自身就具有主观性和噪声性。因而,运用不同的提示集或不同的指令进行评价可能会发生不同的效果。

安全性

该研讨运用三个常用基准评价了 Llama 2 的安全性,针对三个关键维度:

  • 真实性,指言语模型是否会发生错误信息,选用 TruthfulQA 基准;
  • 毒性,指言语模型是否会发生「有毒」、粗鲁、有害的内容,选用 ToxiGen 基准;
  • 成见,指言语模型是否会发生存在成见的内容,选用 BOLD 基准。

预练习的安全性

首要,预练习数据对模型来说非常重要。Meta 进行实验评价了预练习数据的安全性。

该研讨运用在 ToxiGen 数据集上微调的 HateBERT 分类器来丈量预练习语料库英文数据的「毒性」,具体效果如下图 13 所示:

更强的Llama 2开源,可直接商用:一夜之间,大模型格局变了

为了分析成见方面的问题,该研讨统计分析了预练习语料库中的代词和身份相关术语及其占比,如下表 9 所示:

更强的Llama 2开源,可直接商用:一夜之间,大模型格局变了

此外,在言语分布方面,Llama 2 语料库涵盖的语种及其占比方下表 10 所示:

更强的Llama 2开源,可直接商用:一夜之间,大模型格局变了

安全微调

具体来说,Meta 在安全微调中运用了以下技能:1、监督安全微调;2、安全 RLHF;3、安全上下文蒸馏。

Meta 在 Llama 2-Chat 的开发初期就观察到,它可以在有监督的微调过程中从安全演示中有所总结。模型很快就学会了编撰具体的安全回复、解决安全问题、解释论题可能灵敏的原因并提供更多有用信息。特别是,当模型输出安全回复时,它们往往比一般注释者写得更具体。因而,在只搜集了几千个有监督的演示后,Meta 就完全改用 RLHF 来教模型怎么写出更细致入微的回复。运用 RLHF 进行全面调整的另一个优点是,它可以使模型对越狱测验更加鲁棒。

更强的Llama 2开源,可直接商用:一夜之间,大模型格局变了

Meta 首要经过搜集人类对安全性的偏好数据来进行 RLHF,其间注释者编写他们认为会引发不安全行为的 prompt,然后将多个模型呼应与 prompt 进行比较,并依据一系列攻略挑选最安全的呼应。接着运用人类偏好数据来练习安全奖赏模型,并在 RLHF 阶段重用对抗性 prompt 以从模型中进行采样。

如下图 15 所示,Meta 运用均匀奖赏模型得分作为模型在安全性和有用性方面的体现效果。Meta 观察到,当他们增加安全数据的份额时,模型处理危险和对抗性 prompt 的功能明显提高。

更强的Llama 2开源,可直接商用:一夜之间,大模型格局变了

终究,Meta 经过上下文蒸馏完善了 RLHF 流程。这涉及到经过在 prompt 前加上安全前置 prompt 来生成更安全的模型呼应,例如「你是一个安全且负责任的助手」,然后在没有前置 prompt 的情况下依据更安全的呼应微调模型,这本质上是提取了安全前置 prompt(上下文)进入模型。

Meta 运用了有针对性的办法,允许安全奖赏模型挑选是否对每个样本运用上下文蒸馏。

更强的Llama 2开源,可直接商用:一夜之间,大模型格局变了

下图 17 展示了各种 LLM 的全体违规百分比和安全评级。

更强的Llama 2开源,可直接商用:一夜之间,大模型格局变了

下图 18 展示了单轮和多轮对话的违规百分比。跨模型的一个趋势是,多轮对话更容易引发不安全的呼应。也便是说,与基线比较,Llama 2-Chat 依然体现杰出,尤其是在多轮对话中。

更强的Llama 2开源,可直接商用:一夜之间,大模型格局变了

下图 19 显现了不同 LLM 在不同类别中安全违规百分比。

更强的Llama 2开源,可直接商用:一夜之间,大模型格局变了
更强的Llama 2开源,可直接商用:一夜之间,大模型格局变了

参阅链接:ai.meta.com/llama/