智能体的潜力被低估了?
AI 智能体是去年很火的一个话题,但是 AI 智能体到底有多大的潜力,许多人或许没有概念。
最近,斯坦福大学教授吴恩达在讲演中提到,他们发现,依据 GPT-3.5 构建的智能体作业流在运用中体现比 GPT-4 要好。当然,依据 GPT-4 构建的智能体作业流作用更好。由此看来,AI 智能体作业流将在本年推进人工智能取得巨大进步,乃至或许超越下一代基础模型。这是一个值得一切人重视的趋势。
这个关于智能体的讲演在交际媒体上引发了广泛重视。有人表明,这代表着 AI 发展中的范式改变,体现了从静态输出到动态迭代的改变。站在这样一个十字路口,咱们不仅要考虑 AI 怎样改变咱们的作业,还要考虑咱们怎样适应它所创造的新环境。
还有人说,这和自己的生活经验是相通的:有些人能够凭仗杰出的流程胜过那些比自己聪明的人。
那么,智能体的这种作用是怎样完成的呢?
和传统的 LLM 运用办法不同,智能体作业流不是让 LLM 直接生成终究输出,而是屡次提示(prompt)LLM,使其逐步构建更高质量的输出。
在讲演中,吴恩达介绍了 AI 智能体作业流的四种规划形式:
-
反思(Reflection):LLM 查看自己的作业,以提出改善办法。
-
东西运用(Tool use):LLM 具有网络查找、代码履行或任何其他功能来协助其搜集信息、采取举动或处理数据。
-
规划(Planning):LLM 提出并履行一个多过程方案来完成方针(例如,撰写论文纲要、进行在线研讨,然后撰写草稿……)。
-
多智能体协作(Multi-agent collaboration):多个 AI 智能体一同作业,分配使命并评论和争辩主意,以提出比单个智能体更好的处理方案。
在后续的博客中,吴恩达要点评论了反思(Reflection)形式。吴恩达表明:「反思形式是完成速度相对较快的规划形式,它已经带来了惊人的功能提高作用。」
他在博客中写道:
咱们或许都有过这样的阅历:提示 ChatGPT/Claude/Gemini,得到不满意的输出,提供要害反应以协助 LLM 改善其呼应,终究取得更好的呼应。
假如将要害反应的过程交付给主动化程序,让模型主动批判自己的输出并改善其呼应,成果会怎样?这正是反思形式的要害。
以要求 LLM 编写代码为例。咱们能够提示它直接生成所需的代码来履行某个使命 X。之后,咱们能够提示它反思自己的输出,如下所示:
这是使命 X 的代码:[之前生成的代码]
仔细查看代码的正确性、风格和效率,并对怎样改善它提出建设性定见。
有时这会使 LLM 发现问题并提出建设性定见。接下来,咱们能够用上下文 prompt LLM,包含:
-
曾经生成的代码;
-
建设性的反应;
-
要求它运用反应来重写代码。
这能够让 LLM 终究输出更好的呼应。重复批判 / 重写进程或许会产生进一步的改善。这种自我反思进程使 LLM 能够发现距离并改善其在各种使命上的输出,包含生成代码,编写文本和答复问题。
咱们能够经过给 LLM 提供东西来协助其点评产出。例如,经过几个测验用例来运转代码,以查看是否在测验用例上生成正确的成果,或者查找网页以查看文本输出。然后,LLM 能够反思它发现的任何错误,并提出改善的主意。
此外,咱们能够运用多智能体结构来完成反思。创建两个不同的智能体很方便,一个提示生成杰出的输出,另一个提示对第一个智能体的输出给出建设性的批判。两个智能体之间的评论推进了呼应的改善。
反思是一种相对根本的智能体作业流形式,但它在一些情况下明显改善了运用程序的成果。
最终,关于反思,吴恩达推荐了几篇论文:
-
“Self-Refine: Iterative Refinement with Self-Feedback,” Madaan et al., 2023
-
“Reflexion: Language Agents with Verbal Reinforcement Learning,” Shinn et al., 2023
-
“CRITIC: Large Language Models Can Self-Correct with Tool-Interactive Critiquing,” Gou et al., 2024
在下文中,机器之心整理了本次讲演的内容。
吴恩达:AI 智能体的未来
我很期待与大家共享我在 AI 智能体中所看到的。我以为这是一个令人兴奋的趋势。我以为每个 AI 从业者都应该重视这个趋势。
我要共享的是 AI 智能体。现在,咱们大多数人运用大型言语模型的办法是这样的:咱们在一个非智能体作业流中,你把提示输入到对话框中并生成答案。这有点像是咱们让一个人写一篇关于某个主题的文章。我说,请坐到键盘前,从头到尾打出一篇文章,中间不运用退格键。尽管这很难,AI 大模型还是做得十分好。
智能体作业流长这个姿势(右图)。有一个 AI 大模型,你能够让它写一份论文纲要。你需求上网查资料吗?假如需求,咱们就联网。然后写初稿、读初稿,并考虑哪些部分需求修正。然后修正你的初稿并继续推进。所以这个作业流程更简单迭代。你能够让 AI 大模型进行一些考虑,然后修正这篇文章,然后继续考虑和迭代。依照这个过程迭代屡次。
许多人都没有意识到的是,这么做的作用好得多。其实我自己也很惊奇。关于它们的作业决议计划流程,以及它们优异的体现。除了这些个案研讨,我的团队也剖析了一些数据,运用名为 HumanEval 的编程点评基准。这是 OpenAI 几年前发布的。这上面有一些编程问题,比方给定一个非空整数列表,回来坐落偶数方位的一切奇数元素的和。AI 生成的答案是像这样的代码片段。
现在咱们许多人会运用零样本提示。比方咱们告知 AI 编写代码,并让它在第一个方位运转。谁这样编码?没有人这样写代码。咱们只需输入代码并运转它。或许你这么编码,但我做不到。事实证明,假如你运用 GPT-3.5,在零样本提示的条件下,GPT-3.5 的准确率是 48%。GPT-4 要好得多,到达了 67%。但假如你选用的是智能体作业流,并将其打包,GPT-3.5 实践上能体现更好,乃至比 GPT-4 还好。假如你环绕 GPT-4 构建这样的作业流,GPT-4 也能体现很好。留意,处于智能体作业流中的 GPT-3.5 实践上优于 GPT-4。我以为这已经是一个信号。
一切人都在环绕智能体这个术语和使命进行大量的评论。有许多咨询报告,关于智能体、AI 的未来,等等等等。我想具体一点,共享一下我在智能体中看到的广泛规划形式。这是一个十分混乱、混沌的空间。有许多研讨,有许多作业正在产生,我测验更具体地分一下类,更具体地聊一下智能体范畴产生的作业。
reflection(反思)是一种东西,我以为咱们中的许多人都在运用。它很有用。我以为「tool use」得到了更广泛的认可,但 reflection 实践上作用也很好。我以为它们都是十分强壮的技能。当我运用它们时,我几乎总能让它们作业得很好。规划和多智能体协作,我以为归于正在兴起的技能。在运用它们时,有时我对它们的作业作用感到震动。但至少在现在这个时间,我觉得我无法让它们总是牢靠地作业。
接下来我将具体解释这四种规划形式。假如你们中的一些人回去自己用,或者让你们的工程师运用这些形式,我以为你能够很快取得生产力的提高。
首先是 reflection,举个比如:假定我问一个体系,请为我编写给定使命的代码。然后咱们有一个代码智能体,只是一个接受你编写的提示的大模型。它会写一个如图所示的函数。这儿还有一个 self reflection 的比如。假如你给你的大模型写出这样的提示,告知它这是用于履行某个使命的代码,把你刚刚生成的代码给它,然后让它查看这段代码的正确性、效率等等类似的问题。成果你会发现,依据你的提示写出代码的那个大模型,或许能够发现代码里的问题,比方第五行的 bug。还会告知你怎样修正。假如你现在采用了它的反应并再次给它提示,它或许会提出一个比第一个版别更好的第二版代码。不能确保一定如此,但它是有用的。这种办法在许多运用中都值得测验。
这儿提早说一下 tool use。假如你让它运转单元测验,而它没有经过,你想知道为什么没经过。进行这样的对话,或许能找出原因。这样你就能试着去改正。趁便说一下,假如大家对这些技能感兴趣,我在每一部分的幻灯片底部都写了一个小小的推荐阅览部分,就在 PPT 底部。里边有更多的参考资料。
这儿提早说一下多智能体体系。它被描绘为单个代码智能体,你给它提示,让它们进行对话。这种主意的一个天然演变是单个编程智能体。你能够有两个智能体,其间一个是编码智能体,另一个是点评智能体。它们背面的大模型或许是同一个,但你给它们的提示不一样。咱们对其间一个说,你是写代码的专家,担任编写代码。对另一个说,你是审核代码的专家,担任审核这段代码。这种作业流实践上很简单完成。我以为这是一种十分通用的技能,适用于许多作业流。这将为大型言语模型的功能带来明显的提高。
第二种规划形式是 tool use(东西运用)。许多人或许已经见过依据大模型的体系运用东西。左面是一个截图,来自 Copilot。右边的截图,来自 GPT-4。左面的问题是,网上最好的咖啡机是哪个?Copilot 会经过上网检索来处理一些问题。GPT-4 将会生成代码并运转代码。事实证明,有许多不同的东西被人们用于剖析、搜集信息以采取举动、提高个人生产力。事实证明,许多早期作业关于 tool use 的作业,原来都是在计算机视觉社区。由于之前,大型言语模型对图画力不从心,所以仅有的选择便是大模型生成一个函数调用,能够用来操作图画,比方生成图画或者做方针检测什么的。让咱们看看文献,风趣的是,tool use 范畴的许多作业好像都起源于视觉社区,由于之前的大模型不会看图画,在 GPT-4V、LLaVA 等模型呈现之前。这便是 tool use,它扩展了大型言语模型的能力。
接下来讲 planning(规划)。关于没有大量触摸过规划算法的人来说,我觉得许多人在议论 ChatGPT 时间的时候,你会觉得,「哇,从未见过这样的东西」。我想你还没有运用过规划算法。许多人看到 AI 智能领会很惊奇,「哇,我没想到 AI 智能体能做这些」。在我进行的一些现场演示中,有些演示会失利,AI 智能领会重新规划途径。我实践上阅历过许多这样的时间,「哇,我不敢相信我的 AI 体系刚刚主动做到了这一点」。其间一个比如是从 HuggingGPT 论文中改编的。你输入的是:请生成一张图画,一个女孩在看书,她的姿势和图画中的男孩一样。然后用你的声响描绘这张新图画。给定一个这样的比如,今天有了 AI 智能体,你能够确认第一件要做的事是确认男孩的姿势。然后找到适宜的模型,或许在 HuggingFace 上能找到,提取姿势。接下来需求找到一个姿势图画模型,遵从指令生成一张女孩的图画。然后运用图画 – 文本模型得到描绘。最终运用文本转语音模型读出描绘。
咱们今天已经有了 AI 智能体,我不想说它们作业牢靠,它们还有点挑剔,并不总是好用。但当它们起作用时,实践上作用是十分惊人的。
有了智能体循环,有时你能够改掉前期的问题。我自己已经在运用研讨智能体了。关于我的一些作业,我并不想自己花许多时间进行谷歌查找。我会把需求发给 AI 智能体,几分钟后回来看看它做了什么。它有时有用,有时不可。但那已经是我个人作业流的一部分。
最终要讲的形式是多智能体协作。这部分很风趣,它的作用比你幻想的要好得多。左面这张图来自一篇名为 ChatDev 的论文。它是彻底开源的,你们中的许多人都在交际媒体上看过 Devin 的演示。ChatDev 是开源的,它在我的笔记本电脑上运转。ChatDev 是多智能体体系的一个实例。你能够给它一个提示,它有时扮演软件引擎公司的 CEO,有时扮演规划师,有时又是产品司理,有时是测验人员。这群智能体是你经过给大模型提示来构建的,告知它们「你现在是 CEO / 你现在是软件工程师」。他们会协作,会进一步对话。假如你告知它们,「请开发一款游戏」,它们会花几分钟写代码,然后进行测验、迭代,然后生成一个令人惊奇的杂乱程序,虽然并不总是能运转。我已经试过了,有时生成成果用不了,有时候又很冷艳。但是这项技能真的越来越好了。这是其间一种规划模型。此外,事实证明,多智能体争辩(你有多个智能体),比方说,你能够让 ChatGPT 和谷歌的 Gemini 争辩,这实践上会带来更好的功能。因而,让多个类似的 AI 智能体一同作业,也是一个强壮的规划形式。
总结一下,这些是我看到的形式。我以为假如咱们在咱们的作业中运用这些形式,咱们中的许多人能够很快取得实践上的提高。我以为智能体推理规划形式将会十分重要。这是我的简要 PPT。我估计,本年 AI 能做的作业将大幅扩展,这得益于智能体作业流。
有一件事实践上很困难,便是人们需求习气在输入提示之后,咱们总想当即得到成果。实践上,十几年前,当我在谷歌评论 big box search 时,咱们输入了一个很长的提示。我没有成功推进这一项意图一个原因是,在进行网络查找时,你想在半秒钟内得到回复。这是人性使然 —— 咱们喜爱即时获取、即时反应。但是关于许多 AI 智能体作业流来说,我想咱们需求学会分配使命给 AI 智能体,并耐心地等候几分钟,乃至几小时,等它给出回应。我见过许多新晋管理者,将某事委托给或人,然后五分钟后查看成果。这不是一种有用的作业办法。我想咱们需求,这真的很难。咱们也需求对咱们的 AI 智能体多点耐心。
另一个重要的作业是,快速的 token 生成是十分重要的。由于用这些 AI 智能体,咱们一遍又一遍地迭代。AI 生成供人阅览的 token。假如 AI 生成 token 的速度比任何人的阅览速度都快,那就太棒了。我以为,快速生成更多 token,即运用的是质量稍低的大模型,也能带来很好的成果。与用更好的大模型渐渐生成 token 比较,或许这点是有争议的。由于它或许让你在这个循环中反复更屡次。这有点像我在前面的幻灯片上展示的大模型和智能体架构的成果。
坦率地说,我十分期待 Claude 4、GPT-5 和 Gemini 2.0,以及其他正在构建的出色大模型。我感觉,假如你期待在 GPT-5 上运转你的使命,以零样本的办法,你或许在一些 AI 智能体运用上接近那个水平的功能,这或许超乎你的幻想,有了智能体推理,再加上之前发布的大模型。我以为这是一个重要的趋势。老实说,通往 AGI 的路途感觉更像是一段旅程而不是意图地,我以为这套智能体作业流能够协助咱们在这漫长的旅程中向前迈出一小步。
参考链接:
www.deeplearning.ai/the-batch/i…