机器之心报道
机器之心编辑部
游戏职业可能要变天?
通用 AI 大模型 GPT-4 进游戏了,进的是敞开国际,而且玩出了高水平。
昨天,英伟达发布的VOYAGER给 AI 圈内带来了一点小小的震撼。
VOYAGER是第一个大模型驱动,能够终身学习的游戏智能体,著名 AI 学者,刚回 OpenAI 的 Andrej Karpathy 看论文了之后表明:还记得在大约 2016 年的时分,在像《我的国际》这样的环境里开发 AI 署理是多么失望的一件事吗?
现在画风变了 —— 正确的做法是忘掉一切这些,首先用全网数据去练习一个大言语模型(LLM)学习国际知识,推理和东西运用(编码),然后以英伟达这种办法让它去处理问题。
Karpathy 最终总结道:假如在 2016 年读到这种「无梯度」的署理办法,我肯定会大惊失色。
专家说完了,其他人的主意很直接:看起来离通用人工智能(AGI)更近了一步。
也有人在设想未来游戏的场景,由大模型带动 NPC,勃勃生机万物竞发的境界跃然眼前:
咱们知道,引领科技潮流的 ChatGPT 是一种文本交互的聊天机器人,又由于 GPT-4 升级了多模态才能,人们常常预言通用 AI 的下一步在于把这种大模型放在机器人里,让它与实际国际发生交互。
而在机器人与实际 / 虚拟国际交互的办法上,相似 GPT-4 这样的先进大模型解锁了一种新范式:「练习」是代码履行而非梯度下降。「练习好的模型」是VOYAGER迭代组合的技术代码库,而不是浮点数矩阵。现在,咱们正在将无梯度架构推向极限。
在《我的国际》里,VOYAGER敏捷成为了经验丰富的探险家,它获得的共同物品增加了 3.3 倍,行进间隔增加了 2.3 倍,解锁关键科技树里程碑的速度比之前的办法快了 15.3 倍。
英伟达把VOYAGER的研讨进行了彻底的开源:
-
论文链接:arxiv.org/pdf/2305.16…
-
项目主页:voyager.minedojo.org/
-
GitHub:github.com/MineDojo/Vo…
研讨背景
构建具有通用才能的具身智能体,在敞开的国际中不断探究、方案和发展新的技术,是人工智能范畴的一个巨大应战。传统的办法选用强化学习和仿照学习的办法,这些办法依据原始行为运作,关于系统性的探究、可解释性和概括性来说,可能是个应战。
近期,依据大型言语模型(LLM)的智能体在这些方面获得了打破,利用预练习 LLM 中封装的国际知识,生成共同的举动方案或可履行的战略。它们被应用于像游戏和机器人这样的体现性使命,以及没有体现性的 NLP 使命。然而,这些智能体不是终身学习者,不能在较长的时刻跨度内逐步获得、更新、堆集和迁移知识。
与人工智能中研讨的大多数其他游戏不同,《我的国际》没有强加一个预定的最终方针或固定的故事情节,而是供给了一个具有无限可能性的共同游乐场。一个高效的终身学习智能体应该具有与人类玩家相似的才能:
(1)依据其当时的技术水平和国际状况提出合适的使命,例如,假如它发现自己处于沙漠而不是森林,就会在打铁前学会获取沙子和仙人掌;
(2)依据环境反应完善技术,并将把握的技术存入回忆,以便将来在相似情况下重复运用(例如,打僵尸与打蜘蛛相似);
(3)不断探究国际,以自驱动的办法寻找新使命。
VOYAGER是第一个由 LLM 驱动的体现终身学习的智能体,能够在《我的国际》中驱动探究,把握广泛的技术,并在没有人类干预的情况下不断地做出新的发现。
研讨者运用了代码作为举动空间,而不是低级的运动指令,由于程序能够自然地表明时刻上的扩展和组合举动,这关于《我的国际》中的许多长线使命是至关重要的。
VOYAGER经过 prompt 和上下文学习与黑盒子 LLM(GPT-4)互动。值得注意的是,该办法避开了对模型参数拜访和明确的依据梯度的练习或微调的需求。
具体地说,VOYAGER 企图处理由主动课程提出的逐渐困难的使命。该课程是由 GPT-4 依据 「尽可能多发现不同的东西」的总体方针生成的。这种办法能够被看作是一种上下文式的新颖性搜索。经过存储有助于成功处理某个使命的举动程序,VOYAGER 逐步建立起一个技术库。每个程序都由其描述的嵌入来索引,未来能够在相似情况下进行检索。杂乱的技术则能够经过组成更简略的程序来合成,这使 VOYAGER 的才能跟着时刻的推移敏捷变得「复合」,缓解了其他继续学习办法中的「灾难性遗忘」。
办法
VOYAGER 由三个新型组件组成:(1) 主动课程,用于提出敞开式探究的方针;(2) 技术库,用于开发越来越杂乱的行为;(3) 迭代 prompt 机制,用于为具身操控生成可履行代码。
主动课程
具身智能体在敞开模式下会遇到各种不同杂乱程度的方针环境。主动课程这个组件为敞开式探究供给了许多好处,完成了具有应战性但可办理的学习过程,培养了好奇心驱动的内在动机,供智能体学习和探究,并鼓舞开发通用和灵活的问题处理战略。
主动课程组件利用互联网规划的知识,经过促使 GPT-4 供给源源不断的新使命或应战,供给非常强壮的适应性和响应才能。主动课程会依据探究发展和智能体的状况使探究最大化。该课程由 GPT-4 依据「发现尽可能多的不同事物」的总体方针生成。
技术库
**
**
跟着主动课程不断提出越来越杂乱的使命,VOYAGER 需求有一个技术库,作为学习和进化的基础。受程序的通用性、可解释性和普遍性的启示,研讨团队用可履行代码表明每项技术,这些代码支持暂时扩展,以完成主动课程提出的特定使命。
具体来说,技术库的顶部用于添加新技术。每个技术都经过其描述的嵌入进行索引,将来能够在相似情况下检索到。
技术库的底部是技术检索。当主动课程提出新使命时,技术库会履行查询以确定最相关的 5 项技术。杂乱的技术能够经过编写更简略的程序来合成。这种做法让VOYAGER的才能跟着时刻的推移敏捷增强,并缓解了「灾难性遗忘」问题。
迭代 prompt 机制
研讨团队经过三种类型的反应引入自我进步的迭代 prompt 机制,包括环境反应、履行过错、查看使命成功与否的自我验证。
下图(左)是一个环境反应的比如:GPT-4 意识到在制造木棍之前还需求 2 个木板。履行过错的比如如下图(右)所示, GPT-4 意识到它应该制造木斧而不是灌木斧,由于《我的国际》中没有灌木斧。
下图是一个自我验证的比如。经过向 GPT-4 供给智能体的当时状况和使命,GPT-4 会充当「评论者」并通知程序是否完成了使命。此外,假如使命失败,它会「批判」智能体并供给如何完成使命的建议。
实验
在实验中,研讨者系统对比了VOYAGER和基线的探究功能、技术树的把握情况、地图掩盖率以及对新国际中新使命的零样本泛化才能。
他们利用 OpenAI 的 gpt-4-0314 和 gpt-3.5-turbo-0301 的 API 来完成文本,一起利用 text-embedding-ada-002 API 进行文本嵌入。一切的温度设置为 0,除了 automatic curriculum 需求运用温度 = 0.1 来鼓舞使命多样性。模仿环境建立在 MineDojo 的基础上,并利用 Mineflayer 的 JavaScript APIs 进行电机操控。
评价成果如下:
显着更强的探究才能
VOYAGER的优势体现在它能够不断获得新的发展(如图 1),比如能在 160 次 prompt 迭代中发现了 63 个共同的项目,数量是同类的 3.3 倍。另一方面,AutoGPT 在发现新项目方面显着滞后,而 ReAct 和 Reflexion 则难以获得重大发展。
科技树的把握
《我的国际》中技术树测试的是智能体制造和运用东西层次的才能。经过这棵树(木制东西→石制东西→铁制东西→钻石东西)的发展需求智能体把握系统性和构成性的技术。
在表 1 中,分数表明三次总运转中的成功实验次数。数字是三次实验中均匀的 prompt 迭代次数,迭代次数越少,办法就越有用。与基线比较,VOYAGER解锁木质等级的速度快了 15.3 倍(就 prompt 迭代而言),解锁石质等级快了 8.5 倍,解锁铁质等级快了 6.4 倍,VOYAGER是唯一能解锁科技树中钻石等级的模型。
广泛的地图遍历
与基线比较,VOYAGER 的举动范围能够掩盖 2.3 倍的间隔,可穿越各种地势,而基线智能体往往发现自己被约束在本地,这大大阻碍了他们发现新知识的才能(图 7)。
对未见使命的零样本泛化才能
为了评价零样本泛化才能,研讨者清除了智能体的库,将其重置到一个新的实例化的国际,并用未见过的使命来测试。关于 VOYAGER 和 AutoGPT,他们利用 GPT-4 将使命分解为一系列的子方针。
如表 2 和图 8 所示,VOYAGER 能够继续地处理一切的使命,而基线不能在 50 次 prompt 迭代内处理任何使命。值得注意的是,从终身学习中构建的技术库不只增强了 VOYAGER 的功能,而且也给 AutoGPT 带来了进步。这表明,技术库是一个多功能的东西,能够随时被其他办法所选用,有用地作为一种即插即用的财物来进步功能。
消融研讨
研讨者在 VOYAGER 中消融了 6 个设计选择(主动课程、技术库、环境反应、履行过错、自我验证和用于代码生成的 GPT-4),并研讨它们对探究功能的影响,成果如图 9 所示。
VOYAGER的功能优于一切代替方案,表明晰每个组件的关键作用。此外,GPT-4 在代码生成方面显着优于 GPT-3.5。
最终,英伟达的研讨者也指出了一些局限性和未来的作业方向。
首先是本钱问题。GPT-4 API 导致了巨大的本钱。它比 GPT-3.5 的本钱高 15 倍。然而,VOYAGER 需求 GPT-4 完成代码生成质量的飞跃,这是 GPT-3.5 和开源的 LLM 都无法供给的。
其次,虽然有迭代 prompt 机制,但仍有智能体卡住而无法生成正确技术的情况。主动课程有灵活性,能够在以后的时刻里重新测验这项使命。自我验证模块偶然也可能失败,例如不能识别出蜘蛛串正是打倒蜘蛛的成功信号。
然后是大模型的「错觉」问题。主动课程偶然会提出无法完成的使命,例如可能要求智能体制造游戏中并不存在的「铜剑」或「铜胸甲」。错觉也会发生在代码生成过程中,例如 GPT-4 倾向于运用鹅卵石作为燃料输入,这在游戏中是一个无效的燃料来源。此外,它可能会调用所供给的操控原始 API 中没有的函数,导致代码履行过错。研讨者认为,GPT API 模型的改进以及微调开源 LLM 的新技术将在未来克服这些约束。
更多研讨细节,可参阅原论文。