西风 发自 凹非寺 量子位 | 大众号 QbitAI
继Windows Copilot发布后,微软Build大会热度又被一场讲演引爆。
前特斯拉AI总监Andrej Karpathy在讲演中认为思想树(tree of thoughts) 与AlphaGo的蒙特卡洛树搜索(MCTS) 有异曲同工之妙!
网友高呼:这是关于怎么运用大言语模型和GPT-4模型的最详尽风趣的攻略!
此外Karpathy泄漏,由于练习和数据的扩展,LLAMA 65B“明显比GPT-3 175B更强壮”,并介绍了大模型匿名竞技场ChatBot Arena:
Claude得分介于ChatGPT 3.5和ChatGPT 4之间。
网友表示,Karpathy的讲演一贯很棒,而这次的内容也自始自终没有令我们失望。
随着讲演而爆火的,还有推特网友根据讲演收拾的一份笔记,足足有31条,现在转赞量已超越3000+:
所以,这段备受关注的讲演,具体提到了哪些内容呢?
怎么练习GPT帮手?
Karpathy这次的讲演首要分为两个部分。
第一部分,他讲了怎么练习一个“GPT帮手”。
Karpathy首要讲述了AI帮手的四个练习阶段:
预练习(pre-training)、监督微调(supervised fine tuning)、奖励建模(reward modeling)和强化学习(reinforcement learning)。
每一个阶段都需求一个数据集。
在预练习阶段,需求动用很多的计算资源,收集很多的数据集。在很多无监督的数据集上练习出一个根底模型。
Karpathy用了更多比如作补偿:
接下来进入微调阶段。
运用较小的有监督数据集,通过监督学习对这个根底模型进行微调,就能创立一个能够答复问题的帮手模型。
他还展示了一些模型的进化进程,信任很多人之前已经看过上面这张“进化树”的图了。
Karpathy认为现在最好的开源模型是Meta的LLaMA系列(由于OpenAI没有开源任何关于GPT-4的内容)。
在这里需求明确指出的是,根底模型不是帮手模型。
尽管根底模型能够答复问题,但它所给出的答复并不牢靠,可用于答复问题的是帮手模型。在根底模型上进行练习的帮手模型,通过监督微调,在生成回复和理解文本结构方面的体现将优于根底模型。
在练习言语模型时,强化学习是另一个要害的进程。
通过用人工符号的高质量的数据进行练习,能够运用奖励建模来创立一个丢失函数,以改善其性能。然后,通过添加正向的符号,并降低负面符号的概率,来进行强化练习。
而在具有创造性的使命中,使用人类的判断力关于改进AI模型至关重要,加入人类的反应能够更有用地练习模型。
通过人类反应的强化学习后,就能够得到一个RLHF模型了。
模型练习好了,接下来便是怎么有用使用这些模型解决问题了。
怎么更好地运用模型?
在第二部分,Karpathy首要讨论了提示战略、微调、快速开展的东西生态体系以及未来的扩展等问题。
Karpathy又给出了具体示例来说明:
当我们在写文章时候,我们会进行很多的心理活动,需求考虑自己的表述是否正确。而关于GPT来说,这仅仅一个序列符号(a sequence of tokens)。
而提示(prompt) 能够补偿这种认知差异。
Karpathy进一步解释了思想链提示的作业方式。
关于推理问题,要想让自然言语处理中Transformer的体现更好,需求让它一步一步地处理信息,而不能直接抛给它一个非常复杂的问题。
假如你给它几个比如,它会仿照这个比如的模版,最终生成的成果会更好。
模型只能依照它的序列来答复问题,假如它生成的内容是错误的,你能够进行提示,让它重新生成。
假如你不要求它查看,它自己是不会查看的。
这就触及到了System1和System2的问题。
诺贝尔经济学奖得主丹尼尔卡尼曼在《考虑快与慢》中提出,人的认知体系包括System1和System2两个子体系。System1首要靠直觉,而System2是逻辑分析体系。
浅显来说,System1是一个快速主动生成的进程,而System2是通过深思熟虑的部分。
这在最近一篇挺火的论文“Tree of thought”(思想树)中也有被提及。
深思熟虑指的是,不是简略的给出问题的答案,而更像是与Python胶水代码一起运用的prompt,将许多prompt串联在一起。模型必需求维护多个提示,还必需求执行一些树搜索算法,来找出要扩展的提示。
Karpathy认为这种思路与AlphaGo非常类似:
AlphaGo鄙人围棋时,需求考虑下一枚棋子下在哪里。最初它是靠仿照人类来学习的。
但除此之外,它还进行了蒙特卡洛树搜索,能够得到具有多种或许性的战略。它能够对多种或许的下法进行评估,仅保存那些较好的战略。我认为这在某种程度上相当于AlphaGo。
对此,Karpathy还提到了AutoGPT:
我认为现在它的作用还不是很好,我不主张我们进行实践使用。我仅仅认为,随着时刻的推移,我们或许能够从它的开展思路中汲取灵感。
其次,还有一个小妙招是检索增强生成(retrieval agumented generation)和有用提示。
窗口上下文的内容便是transformers在运行时的回忆(working memory),假如你能够将与使命相关的信息加入到上下文中,那么它的体现就会非常好,由于它能够当即拜访这些信息。
简而言之,便是能够为相关数据树立索引让模型能够高效拜访。
假如Transformers也有可参阅的首要文件,它的体现会更好。
最后,Karpathy简略讲了一下在大言语模型中的束缚提示(Constraint prompting)和微调。
能够通过束缚提示和微调来改进大言语模型。束缚提示在大言语模型的输出中强制执行模板,而微调则调整模型的权重以进步性能。
我主张在低风险的使用中运用大言语模型,一直将它们与人工监督相结合,将它们看作是灵感和主张的来历,考虑copilots而不是让它们彻底自主署理。
关于Andrej Karpathy
Andrej Karpathy博士结业后的第一份作业,是在OpenAI研讨计算机视觉。
后来OpenAI联合创始人之一的马斯克看上了Karpathy,把人挖到了特斯拉。但也由于这件事,马斯克和OpenAI彻底闹翻,最后还被踢出局。在特斯拉,Karpathy是Autopilot、FSD等项目的负责人。
今年二月份,在离开特斯拉7个月后,Karpathy再次加入了OpenAI。
最近他发推特表示,现在对开源大言语模型生态体系的开展饶有兴趣,有点像前期寒武纪迸发的痕迹。
传送门:
[1]www.youtube.com/watch?v=xO7…
[2]arxiv.org/pdf/2305.10… thought”论文)
参阅链接:
[1]twitter.com/altryne/sta…
[2]www.reddit.com/r/MachineLe…
[3]www.wisdominanutshell.academy/state-of-gp…
—完—