机器之心报导
修改:小舟、马梓文
平替不止模型,RLHF也有平替了。
2 月底,Meta 开源了一个大模型系列 LLaMA(直译为羊驼),参数量从 70 亿到 650 亿不等,被称为 Meta 版 ChatGPT 的雏形。之后斯坦福大学、加州大学伯克利分校等机构纷繁在 LLaMA 的基础上进行「二创」,连续推出了 Alpaca、Vicuna 等多个开源大模型,一时刻「羊驼」成为 AI 圈顶流。开源社区构建的这些类 ChatGPT 模型迭代速度非常快,而且可定制性很强,被称为 ChatGPT 的开源平替。
但是,ChatGPT 之所以能在文本理解、生成、推理等方面展现出强壮的能力,是由于 OpenAI 为 ChatGPT 等大模型运用了新的练习范式 ——RLHF (Reinforcement Learning from Human Feedback) ,即以强化学习的方式依据人类反应优化语言模型。运用 RLHF 办法,大型语言模型可与人类偏好坚持对齐,遵从人类目的,最小化无益、失真或成见的输出。但 RLHF 办法依赖于大量的人工标示和评价,一般需求数周时刻、花费数千美元收集人类反应,本钱高昂。
现在,推出开源模型 Alpaca 的斯坦福大学又提出了一种模仿器 ——AlpacaFarm(直译为羊驼农场)。AlpacaFarm 能在 24 小时内仅用约 200 美元仿制 RLHF 进程,让开源模型敏捷改进人类评价成果,堪称 RLHF 的平替。
AlpacaFarm 企图快速、低本钱地开发从人类反应中学习的办法。为了做到这一点,斯坦福的研讨团队首先确认了研讨 RLHF 办法的三个首要困难:人类偏好数据的高本钱、缺乏可信赖的评价、缺乏参阅完成。
为了处理这三个问题,AlpacaFarm 构建了模仿注释器、自动评价和 SOTA 办法的具体完成。现在,AlpacaFarm 项目代码已开源。
- GitHub 地址:github.com/tatsu-lab/a…
- 论文地址:tatsu-lab.github.io/alpaca_farm…
如下图所示,研讨人员可以运用 AlpacaFarm 模仿器快速开发从人类反应数据中学习的新办法,也能将已有 SOTA 办法迁移到实际的人类偏好数据上。
模仿注释器
AlpacaFarm 基于 Alpaca 数据集的 52k 指令构建,其中 10k 指令用于微调基本的指令遵从模型,剩下的 42k 指令用于学习人类偏好和评价,而且大部分用于从模仿注释器中学习。该研讨针对 RLHF 办法的注释本钱、评价和验证完成三大挑战,逐一提出处理办法。
首先,为了减少注释本钱,该研讨为可访问 API 的 LLM(如 GPT-4、ChatGPT)创建了 prompt,使得 AlpacaFarm 可以模仿人类反应,本钱仅为 RLHF 办法收集数据的 1/45。该研讨规划了一种随机的、有噪声的注释计划,运用 13 种不同的 prompt,从多个 LLM 提取出不同的人类偏好。这种注释计划旨在捕获人类反应的不同方面,如质量判别、注释器之间的变化性和风格偏好。
该研讨通过试验标明 AlpacaFarm 的模仿是准确的。当研讨团队运用 AlpacaFarm 练习和开发办法时,这些办法与运用实际人类反应练习和开发的相同办法排名非常共同。下图显现了由 AlpacaFarm 模仿工作流和人类反应工作流发生的办法在排名上的高度相关性。这一特性至关重要,由于它阐明从模仿中得出的试验定论在实际情况下也有可能成立。
除了办法层面的相关性,AlpacaFarm 模仿器还可以仿制奖赏模型过度优化等定性现象,但以此针对代理奖赏(surrogate reward)的继续 RLHF 练习可能会损害模型功用。下图是在人类反应 (左) 和 AlpacaFarm (右) 两种情况下的该现象,我们可以发现 AlpacaFarm 开始捕获了模型功用提高的正确认性行为,然后跟着 RLHF 练习的继续,模型功用下降。
评价
在评价方面,研讨团队运用与 Alpaca 7B 的实时用户交互作为辅导,并通过结合几个现有公共数据集来模仿指令散布,包含 self-instruct 数据集、anthropic helpfulness 数据集和 Open Assistant、Koala 和 Vicuna 的评价集。运用这些评价指令,该研讨比较了 RLHF 模型与 Davinci003 模型的呼应(response)情况,并运用一个分值度量 RLHF 模型呼应更优的次数,并将这个分值称为胜率(win-rate)。如下图所示,在该研讨的评价数据上进行的体系排名量化评价标明:体系排名和实时用户指令是高度相关的。这一成果阐明,聚合现有的揭露数据能完成与简略实在指令附近的功用。
参阅办法
对于第三个挑战 —— 短少参阅完成,研讨团队完成并测试了几种盛行的学习算法 (如 PPO、专家迭代、best-of-n 采样)。研讨团队发现在其他范畴有用的更简略办法并不比该研讨开始的 SFT 模型更好,这标明在实在的指令遵从环境中测试这些算法是非常重要的。
依据人工评价,PPO 算法被证明是最有用的,它将模型与 Davinci003 比较的胜率从 44% 提高到 55%,乃至超过了 ChatGPT。
这些成果标明,PPO 算法在为模型优化胜率方面是非常有用的。需求留意的是,这些成果是特定于该研讨的评价数据和注释器得出的。虽然该研讨的评价指令代表了实时用户指令,但它们可能无法涵盖更具有挑战性的问题,而且并不能确认有多少胜率的改进来源于利用风格偏好,而不是事实性或正确性。例如,该研讨发现 PPO 模型发生的输出要长得多,而且一般为答案提供更详细的解说,如下图所示:
总的来说,运用 AlpacaFarm 在模仿偏好上练习模型可以大幅改进模型的人类评价成果,而不需求让模型在人类偏好上从头练习。虽然这种迁移进程比较软弱,而且在作用上仍略逊于在人类偏好数据上从头练习模型。但能在 24 小时内,仅用 200 美元就仿制出 RLHF 的 pipeline,让模型敏捷提高人类评价功用,AlpacaFarm 这个模仿器仍是太香了,是开源社区为复刻 ChatGPT 等模型的强壮功用做出的又一努力。
参阅链接:crfm.stanford.edu/2023/05/22/…