【新智元导读】RLHF并没有那么重要!Meta最新650亿参数模型LIMA,仅用1000个样本,实现与GPT-4相匹敌的功能。
人人都知,让ChatGPT称霸天下的秘密武器,就是人类反应强化学习(RLHF)。
而现在,Meta AI等机构的爆火研讨LIMA直接打破这一规则,直言RLHF并没有那么重要!
论文一出,直接在AI圈炸了锅!
就连LeCun不由得发推炫一番:LIMA:LLaMa-65B+1000监督样本=GPT-4/Bard等级的功能。
正如标题所称,LIMA是「Less is More for Alignment」,暗示着一个强壮的预练习AI模型,经过几个样本就足以实现高质量的成果。
而LIMA仅在1000个精心选择的样本上微调LLaMa-65B,而且无需RLHF,就实现了与GPT-4和Bard相媲美的功能。
论文地址:arxiv.org/abs/2305.11…
论文中,研讨人员将这一打破称为「外表对齐假定」(Superficial Alignment Hypothesis)。
试验证明了,大言语模型在预练习阶段就已习得大部分知识,仅用有限的指令微调数据,足以教会模型发生高质量的内容。
高质量的数据就可以克服小样本量?练习这样模型的成本是多少,这是否意味着小型LLM玩家可以与OpenAI/谷歌竞赛?
还有网友质疑,GPT-4在57%状况中打败LIMA,还能说功能适当?
RLHF并非王者?
大言语模型经过预练习,能在大规划上预测下一个token,让其学习通用表征。这些表征可以搬运到简直任何言语了解或生成使命中。
为了实现这种搬运,人们已经提出各种「对齐」言语模型的办法,主要侧重在百万级token上进行指令调优。
而最近选用较多的是,从人类反应中进行强化学习(RLHF)。这些反应便是在与人类标注者进行数百万次互动中收集的。
ChatGPT令人深刻的体现,主要归功于RLHF。依据OpenAI的思路,RLHF分为三步。
然而,现有的对齐办法价值是高昂的,需求大量算力,以及专门的数据才干实现像ChatGPT一样的功能。
Meta AI却要逆行其道,证明了,一个预练习言语模型可以经过简单地微调精心选择的1000个样本,就能实现强壮的功能。
在此,研讨人员提出「外表对齐假定」(Superficial Alignment Hypothesis),假定「对齐」可以是一个简单的进程,。
在这个进程中,模型的知识和才能简直完全是在预练习期间学习的,而「对齐」只告知模型学习与用户交互的风格或格局
为了验证这个假定,Meta等研讨者选择了1000个近似于实在用户提示,以及高质量呼应的样本。
他们从其他研讨论文、WikiHow、StackExchange和Reddit等来历进行手动选择,练习数据的总量大约是750,000个token。
练习提示(输入)、呼应(输出)以及测验提示的来历
此外,研讨者手动编写了250个提示和呼应的样本,一起对使命的多样性进行了优化。
最后,研讨人员对预练习LLaMa 65B模型在1000个样本集上进行微调,并进行了人类评价。
评价成果
Meta将LIMA与5个模型基准进行了比较:(在2023年4月期间,对所有基准的呼应进行了采样)
Alpaca 65B——运用52,000个样本对LLaMa 65B微调后得到的大模型
DaVinci003——依据RLHF练习的大言语模型
Bard——依据谷歌的PaLM模型
Claude——经过强化学习Constitutional AI练习的52B参数模型
GPT-4——目前运用RLHF练习的最强的模型
为了比较LIMA和其他SOTA模型,Meta为每个测验提示生成一个单一的呼应。
然后,要求人类参与者将LIMA的输出与每个基准进行比较,并符号他们更喜爱哪一个。
在人类偏好研讨中,尽管Alpaca 65B的练习数据量是LIMA的52倍,但它发生的输出往往比LIMA的不如人意。
让人大跌眼镜的是,DaVinci003也是相同的状况,尽管程度较小。该模型运用了RLHF进行练习,这本应是一种更优越的对齐办法。
而Bard在42%的时刻中,其发生的答复优于LIMA。这也意味着,剩下的58%时刻里,LIMA的呼应至少和Bard一样优异。
最后,研讨者发现,尽管Claude和GPT-4一般体现得比LIMA更好,但在一些状况下,LIMA实际上能发生更好的答复。
别的,挖苦的是,在GPT-4的偏好研讨中,有19%的时刻,GPT-4更喜爱LIMA的输出。
「外表对齐假定」
Meta将这一发现定义为「外表对齐假定」(Superficial Alignment Hypothesis)。
它标明,所谓预练习后的对齐阶段,主要是让模型学会一种特定的风格或格局,这种风格或格局在与用户交互时可以被模型回想起来。
因而,「微调」更多是关于风格,而不是本质。
LIMA的成果标明,实际上,运用简单的办法就可以处理对齐和微调AI模型这类复杂问题。
这与比方OpenAI的RLHF那些,特别繁琐和复杂的微调进程,形成了鲜明的比照。
不过,LIMA也不是万能的。Meta认为,该办法存在两个显着的限制:
第一,用高质量的示例构建数据集是一种非常具有挑战性的办法,很难扩展。
第二,LIMA并不像已经有产品的模型那样强壮,比方GPT-4。
团队表示,尽管LIMA的生成成果,在大部分状况下质量都很高。但一个「对抗性的提示」或一个「不走运的样本」,依然会让模型发生不抱负的答案。
Yann LeCun对GPT-4和相似模型背后尽力的相对价值降低采取了务实的观点。
他将大型言语模型看作是近期的一个元素,至少在中期内不会「在没有严重改变」的状况下发挥作用。
以上,主要评价是依据最先进的模型对LIMA进行评价,但需求明确的是,其间一些模型实际上已经在练习期间运用了数百万实在用户的提示。
对此,研讨人员经过手动分析50个随机示例来进行肯定的评价。
并将每个示例符号成3个类别:Fail,呼应不契合提示符的要求;Pass,呼应契合;Excellent,对提示提供了优异的呼应。
试验成果显现,50%的LIMA答复被认为是优异的,它可以遵从所有的50个分析提示中的44个。
如下,LIMA针对育儿建议和生成食谱的示例进行的输出。
别的,一个仅在1000个样本上微调的模型在多轮对话中体现又怎么?
在零样本上,LIMA的呼应出奇地连贯,并引用了前面对话的信息。在10次对话中,LIMA有3次未能遵从提示。
为了进步对话才能,研讨人员收集了30个多轮对话。其间10个是由作者手动编写,20个来自Stack Exchange,并依据帮手风格进行编辑。
研讨者运用组合的1,030个示例对预练习模型进行微调,得到一个新版本的LIMA,并针对相同的提示进行了10次实时对话。
试验发现加入这30个示例后生成质量明显进步,优质呼应份额从45.2%进步到76.1%!
LIMA怎么以「少」胜「多」
团队经过融化试验,研讨了练习数据多样性、质量和数量的影响。
Meta发现,为了对齐意图,进步输入多样性和输出质量有可测量的正面效应,而独自添加数量却没有。
试验设置
团队在各种数据集上微调了一个拥有70亿参数的LLaMa模型,并操控了相同的超参数。
团队对每个测验集提示抽取5个回应,并经过让ChatGPT(GPT-3.5 Turbo)在1-6的Likert量表上评级回应的协助性来评价回应质量。
多样性
为了测验提示多样性的影响,一起操控质量和数量,团队比较了在质量过滤后的Stack Exchange数据和wikiHow数据上的练习效果。
图5显现,更多样的Stack Exchange数据明显进步了模型的功能。
质量
为了测验呼应质量的影响,团队从Stack Exchange抽取了2000个没有任何质量或风格过滤的示例,并比较了在这个数据集和过滤后的数据集上练习的模型。
图5显现,在过滤和未过滤的数据源上练习的模型之间存在着0.5点的差异。
数量
在很多机器学习设置中,都会选用添加示例数量的策略,来进步功能。
为了测验其影响,团队从Stack Exchange中抽取了呈指数增加的练习集。
但实际上,如图6所示,数据翻倍的练习集并未改善呼应质量。
如此一来也暗示了,对齐的规划法则不必然只受数量影响,而更可能是在保持高质量呼应的一起,进步提示的多样性。
作者介绍
Chunting Zhou是Meta AI的一名研讨科学家。
2022年5月,她在卡内基梅隆大学言语技术研讨所取得博士学位,在那里从事自然言语处理工作,导师是Graham Neubig。Zhou的主要研讨兴趣在于自然言语处理和机器学习的交叉领域,并对开发对分布改变具有鲁棒性的办法感兴趣,意图是学习模型可以在各种群体中体现一致。
此外,Zhou还研讨生成模型,及其在自然言语处理使命中的使用。
参考资料:
arxiv.org/abs/2305.11…