爆火论文打造《西部世界》雏形：25个AI智能体，在虚拟小镇自由成长-六虎

《西部国际》的游戏逐步走进实际。

咱们能否创造一个国际？在那个国际里，机器人能够像人类相同日子、工作、交际，去复刻人类社会的方方面面。

这种想象，曾在影视作品《西部国际》的设定中被完美地还原出来：很多预装了故工作节的机器人被投放到一个主题公园内，它们能够像人类相同行事，记得自己看到的东西、遇到的人、说过的话。每天，机器人都会被重置，回到它们的中心故工作节中。

《西部国际》剧照，左面人物为预装了故工作节的机器人。

再把想象力扩张一下：放在今日，假设咱们想把 ChatGPT 这样的大言语模型变成西部国际的主人，又会怎么做？

在最近爆火的一篇论文中，研讨者们成功地构建了一个「虚拟小镇」，25 个 AI 智能体在小镇上生存，它们不只能够从事杂乱的行为（比方举行情人节派对），而且这些行为比人类人物的扮演愈加实在。

论文链接：arxiv.org/pdf/2304.03…
Demo 地址：reverie.herokuapp.com/arXiv_Demo/

从《模仿人生》这样的沙盒游戏到认知模型、虚拟环境等使用，四十多年来，研讨者们一向设想去创立能够完成可信人类行为的智能体。在这些设想中，由核算驱动的智能体的行为会与其过往阅历共同，并对环境做出可信的反响。这种人类行为的模仿能够用实际社会现象填充虚拟空间和社区，练习「人们」去处理稀有但困难的人际联系、测验社会科学理论、制作理论和可用性测验的人类处理器模型、提供泛在核算使用和交际机器人动力，还能为在敞开国际（Open World）中驾驭杂乱人类联系的 NPC 人物奠定根底。

但人类行为的空间是巨大而杂乱的。虽然在大型言语模型能够模仿单个时刻点上的可信人类行为，但要想保证长时刻共同性，通用智能体需求一个架构来办理不断增加的回忆，由于新的互动、抵触和工作跟着时刻推移而呈现和消退，同时还要处理多个智能体之间展开的级联社会动态。

假设一种方法能够在很长一段时刻内检索相关的工作和互动，对这些回忆进行反思，并归纳和得出更高层次的推论，并使用这种推理来创立对当下和长时刻智能体行为有意义的方案和反响，那么间隔愿望完成就不远了。

这篇新论文介绍了「Generative Agents」（生成式智能体），一种使用生成模型来模仿可信人类行为的智能体，并证明它们能发生可信的个人和突发群体行为的模仿：

能够对自己、其他智能体和环境进行广泛的揣度；
能够创立反映本身特色和阅历的日常方案，履行这些方案，做出反响，并在恰当的时候从头方案；
能够在终端用户改动环境或用天然言语指令它们时做出反响。

「Generative Agents」背后是一个新的智能体架构，能够存储、组成和使用相关的回忆，使用大型言语模型生成可信的行为。

举个例子，「Generative Agents」假设看到它们的早餐正在焚烧，会关掉炉子；假设澡堂有人，会在外面等待；假设遇到想攀谈的另一个智能体，会停下来谈天。一个充溢「Generative Agents」的社会是以新兴的社会动态为标志的，在这个社会中，新的联系被构成，信息被分散，并在智能体之间发生协调。

详细而言，研讨者在这篇论文中公布了几点重要细节：

Generative Agents，是对人类行为的可信模仿，它以智能体不断改变的阅历和环境为条件进举动态调整；
一个新颖的架构，使 Generative Agents 有或许记住、检索、反思、与其他智能体互动，并经过动态演化的环境进行规划。该架构使用了大型言语模型的强壮 prompt 才能，并对这些才能进行了弥补，以支撑智能体的长时刻共同性、办理动态演化的回忆才能，以及递归地发生更多的代代；
两项评价（对照评价和端到端评价），确认架构各组成部分的重要性的因果联系，以及确认因回忆检索不当等原因而发生的故障；
评论了交互体系中 Generative Agents 的机会和道德及社会危险。研讨者认为应该对这些智能体进行调整，减轻用户构成寄生社会联系的危险，对其进行记载以减轻由 deepfake 和定制压服所带来的危险，并在规划过程中以弥补而非替代人类利益相关者的方法进行使用。

文章一经发布，就引起了全网的热议。本就看好「AutoGPT」方向的 Karpathy 连连赞赏，认为「Generative Agents」比之前玩概念的「Open World」高了不是一点半点：

更有研讨者断语，这项研讨的发布，意味着「大型言语模型完成了新的里程碑式发展」：

「Generative Agents」行为及其交互

为了使「Generative Agents」愈加详细化，该研讨将它们实例化为沙盒国际中的人物。

25 个智能体居住在名为 Smallville 的小镇，每个智能体由一个简单的化身表明。所有的人物都能够：

与别人和环境交流；
记住并回忆它们所做的和调查到的工作；
反思这些调查成果；
拟定每天的方案。

研讨者用天然言语描绘了每个智能体的身份，包括它们的工作以及与其他智能体的联系，并将这些信息作为种子回忆。举例来说，智能体 John Lin 有如下描绘（本文截取了一段）：

「John Lin 是一名药店店主，他乐于助人。他一向在寻觅使客户更容易获得药物的方法。John Lin 的妻子是大学教授 Mei Lin ，它们和学习音乐理论的儿子 Eddy Lin 住在一同；John Lin 十分爱它的家人；John Lin 知道隔壁的老夫妇 Sam Moore 和 Jennifer Moore 好几年了……」

身份设定好之后，接着就是智能体怎么与国际交互了。

在沙盒的每个 step 内，智能体都输出一个天然言语语句，以描绘它们当时的动作，例如语句「Isabella Rodriguez 正在写日记」、「Isabella Rodriguez 正在检查邮件」等。然后这些天然言语被转化为影响沙盒国际的详细动作。动作以一组表情符号的形式显现在沙盒界面上，这些表情符号提供了动作的笼统表征。

为了完成这一点，该研讨采用了一种言语模型，能够将动作转换为一组表情符号，这些表情符号呈现在每个智能体化身上方的对话框中。例如，「Isabella Rodriguez 正在写日记」显现为

，「Isabella Rodriguez 正在检查邮件」显现为

。除此以外，经过单击智能体头像能够拜访完好的天然言语描绘。

智能体之间用天然言语进行交流，假设智能体意识到在其周围有其他智能体，它们会思考要不要走曩昔进行谈天。例如 Isabella Rodriguez 和 Tom Moreno 就行将到来的选举进行了对话：

除此以外，用户还能够指定智能体扮演什么人物，例如，指定其间一个智能体为记者，你就能够向该智能体咨询新闻方面的内容。

智能体与环境的交互

Smallville 小镇有许多公共场景，包括咖啡馆、酒吧、公园、校园、宿舍、房屋和商铺。此外，每个公共场景还包括本身具有的功能以及目标，例如房子中有厨房、厨房中有炉子 (图 2)。在智能体的日子空间中还有床、桌子、衣柜、架子，以及澡堂和厨房。

智能体能够在 Smallville 内随处走动，进入或脱离一座修建，导航前行，乃至去挨近另一个智能体。智能体的移动由 Generative Agents 的架构和沙盒游戏引擎控制：当模型指示智能体移动到某个位置时，该研讨会核算其在 Smallville 环境中抵达目的地的步行途径，然后智能体开端移动。

此外，用户和智能体还能够影响该环境下其他物体的状态，例如，当智能体睡觉时床是被占用的，当智能体用完早餐冰箱或许是空的。最终用户还能够经过天然言语重写智能体环境。例如用户在 Isabella 进入澡堂时将淋浴器状态设置为漏水，之后 Isabella 会从客厅找到工具并尝试修复漏水问题。

智能体一天的日子

从一段描绘开端，智能体开端方案一天的日子。跟着时刻在沙盒国际中的消逝，智能体的行为跟着彼此之间的交互以及与国际的互动、本身树立的回忆等逐步改动。下图为药店店主 John Lin 一天的行为。

在这个家庭中，John Lin 早上七点第一个起床，然后刷牙、洗澡、穿衣服、吃早餐，接着在客厅的餐桌旁浏览新闻。早上 8 点，John Lin 的儿子 Eddy 也跟着起床准备上课。他临出门时和 John 进行对话，内容为：

Eddy 出发后不久，他的妈妈 Mei 也醒了过来，Mei 问起儿子，John 回忆起它们刚刚的对话，然后有了下面对话

交际才能

除此以外，「Generative Agents」还体现出社会行为的出现。经过相互交互，「Generative Agents」在 Smallville 环境下交流信息，构成新的联系。这些社会行为是天然发生的，而不是预先设定好的。例如当智能体注意到对方的存在时，或许会进行一场对话，对话信息能够在智能体之间传达。

让咱们看几个例子：

信息传达。当智能体注意到对方，它们或许会进行对话。当这样做时，信息能够从智能体传达到另一智能体。例如，在 Sam 和 Tom 在杂货店的对话中，Sam 告知了 Tom 他在当地选举中的候选资格：

当天晚些时候，在 Sam 脱离后，从另一个途径听到消息的 Tom 和 John 评论了 Sam 赢得选举的机会：

渐渐地，Sam 的候选资格成为了镇上的论题，有人支撑他，也有人优柔寡断。

联系回忆。跟着时刻的推移，小镇上的智能体构成了新的联系，并记住了它们与其他智能体的互动。例如，Sam 一开端并不知道拉 Latoya Williams。在约翰逊公园漫步时，Sam 碰到了 Latoya，互相做了毛遂自荐，Latoya 提到自己正在进行一个摄影项目：「我在这里为正在进行的一个项目拍照照片。」在后来的互动中，Sam 与 Latoya 的互动表明晰对这件事的回忆，Sam 问道：「Latoya，你的项目发展怎么？」Latoya 回答：「发展得很好！」

协调才能。Isabella Rodriguez 运营一家 Hobbs 咖啡馆，打算在 2 月 14 日下午 5 点到 7 点举行一场情人节派对。从这个种子开端，当 Isabella Rodriguez 在 Hobbs 咖啡馆或其他地方遇到朋友和顾客时，就会发出约请。13 日下午，Isabella 开端装修咖啡馆。Isabella 的常客和密友 Maria 来到咖啡馆。Isabella 请求 Maria 帮忙安置派对，Maria 赞同了。Maria 的人物描绘是它喜爱 Klaus。那天晚上，Maria 约请它的暗恋目标 Klaus 一同参加派对，Klaus 欣然接受。

情人节那天，包括 Klaus 和 Maria 在内的五名智能体在下午 5 点呈现在 Hobbs 咖啡馆，它们享受着庆祝活动（图 4）。在这个场景中，终端用户只设置了 Isabella 举行派对的初始意图和 Maria 对 Klaus 的迷恋：传达信息、装修、约对方、抵达派对以及在派对上互动的交际行为，由智能体架构建议。

架构

Generative Agents 需求一个结构来辅导其在敞开国际中的行为，旨在让 Generative Agents 能够与其他智能体进行交互并对环境改变做出反响。

Generative Agents 将其当时环境和曩昔的阅历作为输入，生成行为作为输出。Generative Agents 的架构将大型言语模型和组成与检索相关信息的机制结合到一同，以调理言语模型的输出。

假设没有组成与检索机制，大型言语模型能够输出行为，但 Generative Agents 或许不会依据智能体曩昔的阅历做出反响，以至于无法做出重要的推理，也或许无法坚持长时刻的连贯性。即使使用当时功能最好的模型（例如 GPT-4），长时刻规划和连贯性方面的应战依然存在。

由于 Generative Agents 会发生大量有必要保存的工作和回忆流（memory stream），因而其架构的中心应战是保证在需求时检索和组成智能体回忆中最相关的部分。

Generative Agents 的架构中心是回忆流 —— 一个全面记载智能体阅历的数据库。智能领会从回忆流中检索相关记载，以规划智能体的动作行为并对环境做出恰当反响，而且每次行为都会被记载以递归组成更高级别的行为辅导。Generative Agents 架构中所有的内容都被记载下来并以天然言语描绘的形式来进行推理，从而使智能体能够使用大型言语模型的推理功能。

当时，该研讨完成了使用 ChatGPT 的 gpt3.5-turbo 版本。研讨团队预计 Generative Agents 的架构根底 —— 回忆、规划和反思 —— 或许会坚持不变。较新的言语模型（例如 GPT-4）拥有更好的表达才能和功能，这会进一步扩展 Generative Agents。

回忆与检索

Generative Agents 的架构完成了一个检索功能，该功能将智能体的当时情况作为输入并回来回忆流的一个子集以传递给言语模型。检索功能有多种或许的完成方法，详细取决于智能体在决议怎么举动时考虑的重要因素。

反思

该研讨还引入了第二种类型的回忆，称为「反思」。反思是由智能体生成的更高层次、更笼统的思想。反思是周期性发生的，在该研讨中，只有当智能体对最近工作的重要性分数总和超过某个阈值，智能体才会开端反思。

实际上，该研讨提出的 Generative Agents 每天大约反思两到三次。反思的第一步是让智能体确认要反思的内容，方法是依据智能体最近的阅历确认能够提出的问题。

规划与反响

规划被用于描绘智能体未来举动的次序，并协助智能体跟着时刻的推移坚持行为共同。规划应该包括位置、开端时刻和持续时刻。

为了创立合理的规划，Generative Agents 会自上而下递归地生成更多细节。第一步是拟定一个方案，粗略地概述当天的「日程」。为了创立初始规划，该研讨向言语模型 prompt 智能体的整体描绘（例如，姓名、特征和它们最近阅历的摘要等等）。

在履行规划的过程中，Generative Agents 会感知周围环境，感知到的调查成果会存储在它们的回忆流中。该研讨用这些调查 prompt 言语模型来决议智能体是应该持续它们的现有规划，还是做出其他反响。

试验及评价

该研讨对 Generative Agents 进行了两项评价：一项是控制评价，以测验智能体是否能独立地发生可信的个体行为；另一项是端到端评价，其间多个 Generative Agents 在两天的游戏时刻内敞开式交互，这是为了了解智能体的稳定性和出现（emergent）社会行为。

比方，伊莎贝拉方案举行一场情人节派对。她传达了这个信息，在模仿结束时，12 个人物已经知道了这件事。其间 7 个人「优柔寡断」——3 个人已有其他方案，4 个人没有表露想法，这和人类的相处相同。

在技能评价层面，该研讨经过用天然言语「采访」智能体，来评价智能体坚持「性格」、回忆、规划、反响和准确反思的才能，并进行了消融试验。试验成果表明，这些组成部分中的每一个对于智能体在使命中的出色体现都至关重要。

在试验评价中，智能体呈现的最常见过错包括：

其未能检索相关回忆；
对智能体回忆进行伪造修饰；
从言语模型中「继承」过于正式的言语或行为。

感兴趣的读者能够阅读论文原文，了解更多研讨细节。

爆火论文打造《西部世界》雏形：25个AI智能体，在虚拟小镇自由成长

相关文章

笔精墨妙,妙手丹青,微软开源可视化版本的ChatGPT:Visual ChatGPT,人工智能AI聊天发图片,Python3.10实现

CoreData 探秘 – 从数据模型构建到托管对象实例

ChatGPT 侵犯用户隐私了吗？

【老司机精选】一文看完「WWDC22」174 个 Session

作者信息