机器之心报导

修改:小舟、马梓文

平替不止模型,RLHF也有平替了。

2 月底,Meta 开源了一个大模型系列 LLaMA(直译为羊驼),参数量从 70 亿到 650 亿不等,被称为 Meta 版 ChatGPT 的雏形。之后斯坦福大学、加州大学伯克利分校等机构纷繁在 LLaMA 的基础上进行「二创」,连续推出了 Alpaca、Vicuna 等多个开源大模型,一时刻「羊驼」成为 AI 圈顶流。开源社区构建的这些类 ChatGPT 模型迭代速度非常快,而且可定制性很强,被称为 ChatGPT 的开源平替。

但是,ChatGPT 之所以能在文本理解、生成、推理等方面展现出强壮的能力,是由于 OpenAI 为 ChatGPT 等大模型运用了新的练习范式 ——RLHF (Reinforcement Learning from Human Feedback) ,即以强化学习的方式依据人类反应优化语言模型。运用 RLHF 办法,大型语言模型可与人类偏好坚持对齐,遵从人类目的,最小化无益、失真或成见的输出。但 RLHF 办法依赖于大量的人工标示和评价,一般需求数周时刻、花费数千美元收集人类反应,本钱高昂。

现在,推出开源模型 Alpaca 的斯坦福大学又提出了一种模仿器 ——AlpacaFarm(直译为羊驼农场)。AlpacaFarm 能在 24 小时内仅用约 200 美元仿制 RLHF 进程,让开源模型敏捷改进人类评价成果,堪称 RLHF 的平替。

24小时内、200美元复制RLHF过程,斯坦福开源「羊驼农场」模拟器

AlpacaFarm 企图快速、低本钱地开发从人类反应中学习的办法。为了做到这一点,斯坦福的研讨团队首先确认了研讨 RLHF 办法的三个首要困难:人类偏好数据的高本钱、缺乏可信赖的评价、缺乏参阅完成。

为了处理这三个问题,AlpacaFarm 构建了模仿注释器、自动评价和 SOTA 办法的具体完成。现在,AlpacaFarm 项目代码已开源。

24小时内、200美元复制RLHF过程,斯坦福开源「羊驼农场」模拟器

  • GitHub 地址:github.com/tatsu-lab/a…
  • 论文地址:tatsu-lab.github.io/alpaca_farm…

如下图所示,研讨人员可以运用 AlpacaFarm 模仿器快速开发从人类反应数据中学习的新办法,也能将已有 SOTA 办法迁移到实际的人类偏好数据上。

24小时内、200美元复制RLHF过程,斯坦福开源「羊驼农场」模拟器

模仿注释器

AlpacaFarm 基于 Alpaca 数据集的 52k 指令构建,其中 10k 指令用于微调基本的指令遵从模型,剩下的 42k 指令用于学习人类偏好和评价,而且大部分用于从模仿注释器中学习。该研讨针对 RLHF 办法的注释本钱、评价和验证完成三大挑战,逐一提出处理办法。

首先,为了减少注释本钱,该研讨为可访问 API 的 LLM(如 GPT-4、ChatGPT)创建了 prompt,使得 AlpacaFarm 可以模仿人类反应,本钱仅为 RLHF 办法收集数据的 1/45。该研讨规划了一种随机的、有噪声的注释计划,运用 13 种不同的 prompt,从多个 LLM 提取出不同的人类偏好。这种注释计划旨在捕获人类反应的不同方面,如质量判别、注释器之间的变化性和风格偏好。

该研讨通过试验标明 AlpacaFarm 的模仿是准确的。当研讨团队运用 AlpacaFarm 练习和开发办法时,这些办法与运用实际人类反应练习和开发的相同办法排名非常共同。下图显现了由 AlpacaFarm 模仿工作流和人类反应工作流发生的办法在排名上的高度相关性。这一特性至关重要,由于它阐明从模仿中得出的试验定论在实际情况下也有可能成立。

24小时内、200美元复制RLHF过程,斯坦福开源「羊驼农场」模拟器

除了办法层面的相关性,AlpacaFarm 模仿器还可以仿制奖赏模型过度优化等定性现象,但以此针对代理奖赏(surrogate reward)的继续 RLHF 练习可能会损害模型功用。下图是在人类反应 (左) 和 AlpacaFarm (右) 两种情况下的该现象,我们可以发现 AlpacaFarm 开始捕获了模型功用提高的正确认性行为,然后跟着 RLHF 练习的继续,模型功用下降。

24小时内、200美元复制RLHF过程,斯坦福开源「羊驼农场」模拟器

评价

在评价方面,研讨团队运用与 Alpaca 7B 的实时用户交互作为辅导,并通过结合几个现有公共数据集来模仿指令散布,包含 self-instruct 数据集、anthropic helpfulness 数据集和 Open Assistant、Koala 和 Vicuna 的评价集。运用这些评价指令,该研讨比较了 RLHF 模型与 Davinci003 模型的呼应(response)情况,并运用一个分值度量 RLHF 模型呼应更优的次数,并将这个分值称为胜率(win-rate)。如下图所示,在该研讨的评价数据上进行的体系排名量化评价标明:体系排名和实时用户指令是高度相关的。这一成果阐明,聚合现有的揭露数据能完成与简略实在指令附近的功用。

24小时内、200美元复制RLHF过程,斯坦福开源「羊驼农场」模拟器

参阅办法

对于第三个挑战 —— 短少参阅完成,研讨团队完成并测试了几种盛行的学习算法 (如 PPO、专家迭代、best-of-n 采样)。研讨团队发现在其他范畴有用的更简略办法并不比该研讨开始的 SFT 模型更好,这标明在实在的指令遵从环境中测试这些算法是非常重要的。

24小时内、200美元复制RLHF过程,斯坦福开源「羊驼农场」模拟器

依据人工评价,PPO 算法被证明是最有用的,它将模型与 Davinci003 比较的胜率从 44% 提高到 55%,乃至超过了 ChatGPT。

这些成果标明,PPO 算法在为模型优化胜率方面是非常有用的。需求留意的是,这些成果是特定于该研讨的评价数据和注释器得出的。虽然该研讨的评价指令代表了实时用户指令,但它们可能无法涵盖更具有挑战性的问题,而且并不能确认有多少胜率的改进来源于利用风格偏好,而不是事实性或正确性。例如,该研讨发现 PPO 模型发生的输出要长得多,而且一般为答案提供更详细的解说,如下图所示:

24小时内、200美元复制RLHF过程,斯坦福开源「羊驼农场」模拟器
24小时内、200美元复制RLHF过程,斯坦福开源「羊驼农场」模拟器

总的来说,运用 AlpacaFarm 在模仿偏好上练习模型可以大幅改进模型的人类评价成果,而不需求让模型在人类偏好上从头练习。虽然这种迁移进程比较软弱,而且在作用上仍略逊于在人类偏好数据上从头练习模型。但能在 24 小时内,仅用 200 美元就仿制出 RLHF 的 pipeline,让模型敏捷提高人类评价功用,AlpacaFarm 这个模仿器仍是太香了,是开源社区为复刻 ChatGPT 等模型的强壮功用做出的又一努力。

参阅链接:crfm.stanford.edu/2023/05/22/…