已上微软 Azure,即将要上 AWS、Hugging Face。
一夜之间,大模型格式再次发生巨变。
一向以来 Llama 可以说是 AI 社区内最强壮的开源大模型。但因为开源协议问题,一向不可免费商用。
今日,Meta 终于发布了我们期待已久的免费可商用版别 Llama 2。
此次 Meta 发布的Llama 2 模型系列包含 70 亿、130 亿和 700 亿三种参数变体。此外还练习了 340 亿参数变体,但并没有发布,只在技能陈述中提到了。
据介绍,比较于 Llama 1,Llama 2 的练习数据多了 40%,上下文长度也翻倍,并选用了分组查询注意力机制。具体来说,Llama 2 预练习模型是在2 万亿的 token上练习的,精调 Chat 模型是在100 万人类标记数据上练习的。
发布的测评效果显现,Llama 2 在包含推理、编码、精通性和知识测验等许多外部基准测验中都优于其他开源言语模型。
接下来,我们就从 Meta 发布的技能陈述中,具体了解下 Llama 2。
- 论文地址:ai.meta.com/research/pu…
- 项目地址:github.com/facebookres…
总的来说,作为一组经过预练习和微调的大言语模型(LLM),Llama 2 模型系列的参数规模从 70 亿到 700 亿不等。其间的 Llama 2-Chat 针对对话用例进行了专门优化。
Llama 2-Chat 的练习 pipeline。
Llama 2 模型系列除了在大多数基准测验中优于开源模型之外,依据 Meta 对有用性和安全性的人工评价,它或许也是闭源模型的适宜替代品。
Llama 2-Chat 与其他开源和闭源模型在安全性人类评价上的效果。
Meta 具体介绍了 Llama 2-Chat 的微谐和安全改进办法,使社区可以在其作业根底上继续发展,为大言语模型的负责任发展做出贡献。
预练习
为了创立全新的 Llama 2 模型系列,Meta 以 Llama 1 论文中描述的预练习办法为根底,运用了优化的自回归 transformer,并做了一些改动以提高功能。
具体而言,Meta 执行了更稳健的数据清理,更新了混合数据,练习 token 总数增加了 40%,上下文长度翻倍。下表 1 比较了 Llama 2 与 Llama 1 的具体数据。
Llama 2 的练习语料库包含了来自公开可用资源的混合数据,而且不包含 Meta 产品或服务相关的数据。Llama 2 选用了 Llama 1 中的大部分预练习设置和模型架构,包含规范 Transformer 架构、运用 RMSNorm 的预归一化、SwiGLU 激活函数和旋转方位嵌入。
在超参数方面,Meta 运用 AdamW 优化器进行练习,其间 _1 = 0.9,_2 = 0.95,eps = 10^−5。一起运用余弦学习率计划(预热 2000 步),并将终究学习率衰减到了峰值学习率的 10%。
下图 5 为这些超参数设置下 Llama 2 的练习丢失曲线。
在练习硬件方面,Meta 在其研讨超级集群(Research Super Cluster, RSC)以及内部出产集群上对模型进行了预练习。两个集群均运用了 NVIDIA A100。
在预练习的碳足迹方面,Meta 依据以往的研讨办法,运用 GPU 设备的功耗估算和碳效率,计算了 Llama 2 模型预练习所发生的碳排放量。
预练习期间 Llama 2 各个模型的碳排放量。
Llama 2 预练习模型评价
Meta 陈述了 Llama 1、Llama 2 根底模型、MPT(MosaicML)和 Falcon 等开源模型在规范学术基准上的效果。
下表 3 总结了这些模型在一系列盛行基准上的全体功能,效果表明,Llama 2 优于 Llama 1 。
除了开源模型之外,Meta 还将 Llama 2 70B 的效果与闭源模型进行了比较,效果如下表 4 所示。Llama 2 70B 在 MMLU 和 GSM8K 上接近 GPT-3.5,但在编码基准上存在明显差距。
此外,在简直一切基准上,Llama 2 70B 的效果均与谷歌 PaLM (540B) 相等或体现更好,不过与 GPT-4 和 PaLM-2-L 的功能仍存在较大差距。
微调
Llama 2-Chat 是数个月研讨和迭代应用对齐技能(包含指令调整和 RLHF)的效果,需要很多的计算和注释资源。
监督微调 (SFT)
第三方监督微调数据可从许多不同来历取得,但 Meta 发现其间许多数据的多样性和质量都不够高,尤其是在使 LLM 与对话式指令保持一致方面。因而,他们首要要点搜集了几千个高质量 SFT 数据示例,如下表 5 所示。
在微调过程中,每个样本都包含一个提示和一个答复。为保证模型序列长度得到正确填充,Meta 将练习集中的一切提示和答案连接起来。他们运用一个特别的 token 来分隔提示和答案片段,运用自回归方针,将来自用户提示的 token 丢失归零,因而只对答案 token 进行反向传达。终究对模型进行了 2 次微调。
RLHF
RLHF 是一种模型练习程序,适用于经过微调的言语模型,以进一步使模型行为与人类偏好和指令遵循相一致。Meta 搜集了代表了人类偏好经历采样的数据,人类注释者可据此挑选他们更喜爱的两种模型输出。这种人类反馈随后被用于练习奖赏模型,该模型可学习人类注释者的偏好模式,然后自动做出偏好决定。
下表 6 陈述了 Meta 长期以来搜集到的奖赏建模数据的统计效果,并将其与多个开源偏好数据集进行了比照。他们搜集了超越 100 万个基于人类应用指定原则的二元比较的大型数据集,也便是元奖赏建模数据。
请注意,提示和答案中的标记数因文本范畴而异。摘要和在线论坛数据的提示通常较长,而对话式的提示通常较短。与现有的开源数据集比较,本文的偏好数据具有更多的对话回合,均匀长度也更长。
奖赏模型将模型呼应及其相应的提示(包含前一轮的上下文)作为输入,并输出一个标量分数来表示模型生成的质量(例如有用性和安全性)。运用这种作为奖赏的呼应得分,Meta 在 RLHF 期间优化了 Llama 2-Chat,以更好地与人类偏好保持一致,并提高有用性和安全性。
在每一批用于奖赏建模的人类偏好注释中,Meta 都拿出 1000 个样本作为测验集来评价模型,并将相应测验集的一切提示的调集分别称为「元有用性」和「元安全性」。
下表 7 中陈述了准确率效果。果然如此,Meta 自己的奖赏模型在基于 Llama 2-Chat 搜集的内部测验集上体现最佳,其间「有用性」奖赏模型在「元有用性」测验集上体现最佳,同样,「安全性」奖赏模型在「元安全性」测验集上体现最佳。
全体而言,Meta 的奖赏模型优于包含 GPT-4 在内的一切基线模型。有趣的是,尽管 GPT-4 没有经过直接练习,也没有专门针对这一奖赏建模任务,但它的体现却优于其他非元奖赏模型。
缩放趋势。Meta 研讨了奖赏模型在数据和模型大小方面的缩放趋势,在每周搜集的奖赏模型数据量不断增加的情况下,对不同的模型大小进行了微调。下图 6 陈述了这些趋势,显现了预期的效果,即在类似的数据量下,更大的模型能取得更高的功能。
随着收到更多批次的人类偏好数据注释,可以练习出更好的奖赏模型并搜集更多的提示。因而,Meta 练习了连续版别的 RLHF 模型,在此称为 RLHF-V1、…… , RLHF-V5。
此处运用两种主要算法对 RLHF 进行了微调:
- 近端策略优化 (PPO);
- Rejection 采样微调。
RLHF 效果
首要是基于模型的评价效果。下图 11 陈述了不同 SFT 和 RLHF 版别在安全性和有用性方面的进展,其间经过 Meta 内部的安全性和有用性奖赏模型进行评价。
再来看人类评价效果。如下图 12 所示,Llama 2-Chat 模型在单轮和多轮提示方面均明显优于开源模型。特别地,Llama 2-Chat 7B 在 60% 的提示上优于 MPT-7B-chat,Llama 2-Chat 34B 相对于平等大小的 Vicuna-33B 和 Falcon 40B,体现出了 75% 以上的全体胜率。
在这里,Meta 也指出了人工评价的一些局限性。
尽管效果表明 Llama 2-Chat 在人工评价方面与 ChatGPT 平起平坐,但必须指出的是,人工评价存在一些局限性。
- 依照学术和研讨规范,本文拥有一个 4k 提示的大型提示集。可是,这并不包含这些模型在实际国际中的运用情况,而实际国际中的运用情况可能要多得多。
- 提示语的多样性可能是影响效果的另一个要素,例如本文提示集不包含任何编码或推理相关的提示。
- 本文只评价了多轮对话的终究生成。更有趣的评价办法可能是要求模型完成一项任务,并对模型在多轮对话中的全体体验进行评分。
- 人类对生成模型的评价自身就具有主观性和噪声性。因而,运用不同的提示集或不同的指令进行评价可能会发生不同的效果。
安全性
该研讨运用三个常用基准评价了 Llama 2 的安全性,针对三个关键维度:
- 真实性,指言语模型是否会发生错误信息,选用 TruthfulQA 基准;
- 毒性,指言语模型是否会发生「有毒」、粗鲁、有害的内容,选用 ToxiGen 基准;
- 成见,指言语模型是否会发生存在成见的内容,选用 BOLD 基准。
预练习的安全性
首要,预练习数据对模型来说非常重要。Meta 进行实验评价了预练习数据的安全性。
该研讨运用在 ToxiGen 数据集上微调的 HateBERT 分类器来丈量预练习语料库英文数据的「毒性」,具体效果如下图 13 所示:
为了分析成见方面的问题,该研讨统计分析了预练习语料库中的代词和身份相关术语及其占比,如下表 9 所示:
此外,在言语分布方面,Llama 2 语料库涵盖的语种及其占比方下表 10 所示:
安全微调
具体来说,Meta 在安全微调中运用了以下技能:1、监督安全微调;2、安全 RLHF;3、安全上下文蒸馏。
Meta 在 Llama 2-Chat 的开发初期就观察到,它可以在有监督的微调过程中从安全演示中有所总结。模型很快就学会了编撰具体的安全回复、解决安全问题、解释论题可能灵敏的原因并提供更多有用信息。特别是,当模型输出安全回复时,它们往往比一般注释者写得更具体。因而,在只搜集了几千个有监督的演示后,Meta 就完全改用 RLHF 来教模型怎么写出更细致入微的回复。运用 RLHF 进行全面调整的另一个优点是,它可以使模型对越狱测验更加鲁棒。
Meta 首要经过搜集人类对安全性的偏好数据来进行 RLHF,其间注释者编写他们认为会引发不安全行为的 prompt,然后将多个模型呼应与 prompt 进行比较,并依据一系列攻略挑选最安全的呼应。接着运用人类偏好数据来练习安全奖赏模型,并在 RLHF 阶段重用对抗性 prompt 以从模型中进行采样。
如下图 15 所示,Meta 运用均匀奖赏模型得分作为模型在安全性和有用性方面的体现效果。Meta 观察到,当他们增加安全数据的份额时,模型处理危险和对抗性 prompt 的功能明显提高。
终究,Meta 经过上下文蒸馏完善了 RLHF 流程。这涉及到经过在 prompt 前加上安全前置 prompt 来生成更安全的模型呼应,例如「你是一个安全且负责任的助手」,然后在没有前置 prompt 的情况下依据更安全的呼应微调模型,这本质上是提取了安全前置 prompt(上下文)进入模型。
Meta 运用了有针对性的办法,允许安全奖赏模型挑选是否对每个样本运用上下文蒸馏。
下图 17 展示了各种 LLM 的全体违规百分比和安全评级。
下图 18 展示了单轮和多轮对话的违规百分比。跨模型的一个趋势是,多轮对话更容易引发不安全的呼应。也便是说,与基线比较,Llama 2-Chat 依然体现杰出,尤其是在多轮对话中。
下图 19 显现了不同 LLM 在不同类别中安全违规百分比。
参阅链接:ai.meta.com/llama/