【新智元导读】 全球首位AI软件工程师Devin诞生了,它把握全栈技能,云端布置、底层代码、改bug、练习和微调AI模型都不在话下。最可怕的是,它彻底不怕996,老黄的预言是彻底成真了!
就在刚刚,世界上第一位AI程序员Devin诞生。一家叫Cognition的10人草创公司,才建立不到2个月,就给了全世界亿点点震慑。刚一放出,Devin就刷爆了全网。它把握了全栈技能,能自主学习不熟悉的技能,端到端地构建和布置应用程序,自己改bug,乃至还能练习和微调自己的AI模型!在SWE-bench上,它的体现远远超过Claude 2、Llama、GPT-4等选手,取得了13.86%的惊人成果!也便是说,它现已能通过AI公司的面试了。 就在前不久,英伟达CEO黄仁勋表明,自己相信就在不久的将来,人类再也不需求学习如何编码了,孩子们应该停止编程课。 谁能想到,才短短数月,他的预言就成真了!更令人震惊的是,Devin背面拥有一支强大的金牌程序员团队(规划不大,人才辈出)。据介绍,仅开创团队现已狂揽了10个IOI金牌!
首席履行官Scott Wu和弟弟Neal Wu获奖状况Cognition AI的首席履行官Scott Wu称,自己从9岁开端学习编程,便爱上了将主意变成现实的才能。现在,这个愿望竟然真的完结了。
网友惊呼:码农不存在了!?
看到Devin如此无敌的才能,网友惊呼,一切都完结了! Devin会抢走我的饭碗吗? 德扑AI之父,OpenAI的研讨科学家Noam Brown表明,「2024年将是人工智能令人振奋的一年」。 计算机科学家,AI创业公司CEOSilas Alberti点评到:
它是一个可以独立完结使命的自主体系,在快速原型设计、修正bugs和杂乱数据的可视化上体现卓越。大部分其他帮手在进行四五步操作后就会偏离使命轨道,但Devin可以在整个使命过程中精确地坚持它的方针和方向不变。
出资了Cognition AI的硅谷大佬Peter Thiel更是以为,Cognition AI与Founders Fund之前出资过的DeepMind,现在的AI巨型独角兽OpenAI,Scale AI等公司处于同一水平。AI草创公司Unify开创人称,Devin不只抢走了我的作业,还抢走了我的姓名,简直是落井下石。 美国著名开发者Brian Roemmele表明,自主编码智能体Devin已现AGI雏形!它能在几分钟内自主编写整个应用程序。这是真实无代码未来的开端。 Spotify工程师表明:「现在尚不清楚智能体会在几年内取代软件开发人员,但免费午饭现已不复存在。」「从为期8周的练习营结业,然后找到一份价值 20 万美元的作业,这样的日子现已一去不复返了。做好锻炼和深入学习的预备。熟练地引导人工智能取得好的效果或许才是未来程序员能体现出来的价值。」
世界首位AI软件工程师Devin
AI软件工程师Devin的影响力,简直堪比2023年全网炸锅的智能体——AutoGPT。Devin终究有多强大? Devin可以规划和履行需求数千项决策的杂乱工程使命。而且,它可以在每一步回想相关的上下文,跟着时刻的推移学习,并纠正过错。研讨人员还为Devin供给了常见的开发东西,包含shell、代码编辑器、以及浏览器——皆是人类完结使命最需求的东西。此外,Devin还具备主动与用户协作的才能。比方,实时陈述进度,承受反应,并根据需求与你一起完结设计挑选。现在,Cognition AI还推出了一个Devin定制的Chrome插件——Tab Switcher。 而Cognition的开发者们纷纷共享出了自己运用Devin的示例,简直不要太冷艳!
学习如何运用陌生的技能
当你发给Devin一篇博文后,它会在几分钟内完结自主学习,从阅读文章,运转代码。可以看到,Devin在Modal上运转了ControlNet,在写代码过程中,还会自我debug。最终,人类程序员Sara想要带有自己姓名的桌面壁纸,就立刻生成了。
构建和布置端到端的应用程序
当你想要玩一个「生命游戏」(the Game of Life),交给Devin做就好了。Devin首要会用东西Shell,创建一个新的react应用程序,然后开端通过编辑器编写代码。代码完结后,它还会将应用自动布置到Netlify,一个初步的「生命游戏」就做好了。 这个过程中,Devin还可以逐个根据用户恳求,完结功用的添加。比方在初始屏幕上加上像素化的「Devin」一词,然后期望这个字体再大一些,帧速率更快。与此一起,人类程序员要求Devin修正一个bug——屏幕在3秒后冻结的过错。 下一步,让Devin在10秒后进步帧速率,让网站能习惯不同的窗口大小。一起,一个游戏还得需求交互性,即在某处点击鼠标时,应该生成一个新块。接下来,便是见证奇迹的时刻了!
**,时长01:58
自行查找代码库过错,自行修正
这个名叫Andrew的开发者表明,自己维护了一个大型开源存储库,其中包含许多不同的算法,用于竞争性编程。不久前有朋友告知他:其中一个完结中有bug。Andrew插入了一个快速修正,但并没有测验它,因为没能抽出时刻来编写测验用例。 既然如此,就给Devin来试试看!小哥给了Devin存储库,让它来查看和处理这个存储库。然后,Devin就找到了正确的存储库,查看了一切文件。 接下来,在小哥的要求下,Devin还很轻易地就把测验写了出来——只是看了一下测验应该是什么样,接口是什么样,就完结了这项使命。应战还没完,接下来,小哥要求Devin将对一切输入进行测验,而不只仅是测验这个输入,也便是自己常用的「暴力测验」。所以,Devin重写了测验函数,运用了四个嵌套的循环,这一次,它发现了一个bug。 接着,Devin开端调试。它在这里添加了一个print语句,来调试输入和输出,然后重新测验,发现了过错:代码不应该返回负值。所以Devin查看了正在测验的代码,然后添加进了这行代码,保证返回值是非负的。现在Andrew可以确信,自己的代码是彻底正确的了!
**,时长03:09
练习和微调AI模型
Devin才能也在一步一步进阶。最让人振奋的是,它可以自己练习、微调模型,AI训AI成真了!
首要,给智能体Devin供给一个GitHub库的链接(比方QLoRA——一种量化大模型的微调办法)。Devin所做的便是,微调7B Llama模型。接下来,便是献技的时刻,Devin克隆了GitHub库,了解如何运用readme运转,设置好所需pip的要求,查看一切的脚本言语,并开端运转。
练习过程中,Devin还遇到了Cuda问题(这是在开源库中可以预料到的)。不过这可难不倒Devin。它会自主查看英伟达环境,并找出如何重新安装软件包让其成功运转。接下来,模型练习开端进行了。可以看到损失率正在下降,程序员给出Devin正向反应:「做的不错」!大约1小时后,Devin现已顺利完结几百步练习,仍在进行中…
处理开源代码库中的过错和功用恳求
只要给出一个指向GitHub问题的链接,Devin就会履行所需的一切设置和上下文收集了!这位叫Tony的工程师,想一次运转一堆指令,而且期望在一个屏幕上跟踪它们的状况,所以他找到了一个名为impro的开源东西,期望履行这个操作。看起来虽然impro完结了使命,但状况太模糊了。根本看不出来终究哪些指令失利了。
Tony想改善这里的用户体会,可是自己根本不熟悉代码,所以他想到去求助Devin。他发现网上有人面临相同的问题,所以他把这个问题的链接给了Devin,让它修正这个问题。
在右边,他很明晰地看到,Devin从一个东西跳转到了另一个东西。它首要运用了Shell Deon CLS存储库,然后阅读了自述文件和编辑器,了解了子代码,然后,它返回Shell,安装了所需求的依靠项。另外,Devin还打开了一个Web浏览器。
然后,Devin就开端编码了!在这个过程中,它乃至打开了一些R文档来调试编译器过错。最终,完结了使命,出了一份自己做了哪些改善的总结陈述。
所以,Devin的更改有效吗?Tony发现,它成功了!第三个指令是成功的,他乃至可以看到状况码。
为老练的出产存储库做奉献,修正体系过错
下面这个示例,是SWE-BENCH基准测验的一部分。Devin处理了Python代数体系中的一个过错。它会自行设置代码环境、仿制过错、自行编码、测验修正程序!这位叫Neil的开发者,共享了Devin帮自己改bug的示例。他一向在用这个名为Senpai的存储库,它是一个用Python编写的代数体系。但Neil发现,取分数的对数时,咱们会得到一个无穷大的Zoo,这是肯定不或许的。
所以,他试着让Devin来处理这个问题。
Devin在存储库中复现了Zoo的问题后,随后,它找出了代码中正确的那部分,添加了print语句,以便找出问题原因。
可以看到,原因就在于,整数除法会得到0,就导致之前取了0的对数。因而,Devin用true除法代替了整数除法。随后,它开端测验,保证没有其他问题。 就这样,Devin帮Neil节省了许多的时刻。
胜任自由职业渠道Upwork的作业
Cognition的开发者You还试着在全球最大的综合类自由职业渠道Upwork上,为Devin供给真实的作业。没想到,它竟可以彻底胜任,看来智能体也能出来做副业了……在Upwork上,他首要挑选了一个「用计算机视觉模型做推理」的作业。先来看看这个使命的要求:- 我期望利用该资源库中的模型进行揣度。(github.com/mahdi65/roa…
你的交付效果将是关于如安在AWS的EC2实例中进行操作的具体阐明。- 请供给你完结这项作业的评价陈述。我不会回复没有评价的陈述。
看起来很简单一个使命,但开发者You表明,自己也不知道如何开端做。可是交给Devin,这件事就变得简单得多了。Devin收到恳求后,先开端设置了存储库。然后运转中发现了版别控制问题,Devin自主处理并更新了代码。然后,Devin继续加载并导入软件包。它还从互联网上下载了图画,并运转模型。接下来,Devin再次遇到了问题——关于打印调试,它自主修正了代码。 最终,Devin对数据效果进行抽样,并编写出一份陈述。它会一些标有损坏路途样本的图画,以及具体的text文档。
13.86%正确率,Devin碾压GPT-4/Cluade 3
SWE-bench是一个要求AI智能体处理开源项目(例如Django和scikit-learn)中实践GitHub问题的测验。在评价中,Devin可以完整地正确处理13.86%的问题,这一成果大幅领先于之前技能水平的1.96%。即便是在供给了具体需求修改的文件状况下,从前最优秀的模型也仅能处理4.80%的问题。
华人金牌程序员团队
Cognition AI这家正在改变世界的公司,才正式建立不到2个月,仅有10名职工,涣散在纽约、硅谷,以及世界各地的Airbnb民宿中。 就这样一个连正式办公场地都没有的团队,却现已从硅谷大佬Peter Thiel领投的Funders Fund和其他闻名的出资组织那里取得了2100万美元的出资,其中还包含前推特高管Elad Gil。 在如此迸裂的产品的背面,团队成员背景更是夺目耀眼。Cognition AI的中心开创团队包含3人:CEO Scott Wu,CTO Steven Hao,CPO Walden Yan。 联合开创人兼首席技能官Steven Hao,在AI体系方面有着丰富经验, 他于2018年本科结业于MIT计算机和数学专业。 2018年参加由Alexandr Wang兴办的Scale AI,是一名资深的AI体系工程师。 联合开创人兼首席产品官Walden Yan,在参加Cognition AI之前他还是哈佛大学的一名在校大学生。 作为计算机和经济专业本科大四在读的学生,理论上应该本年本科结业。但实践状况却处在「保密状况」,因为他还没有告知父母自己辍学的事情。(手动狗头) 他在个人网站上,列出了3个自己以为最为重要的成就:
-
是MIT PRIMES Research团队的成员
-
得过IOI金牌
-
创立DeepReason并开发了一款智能区块链审计东西 联合开创人兼首席履行官Scott Wu,是一名接连创业者。 在建立Cognition之前,他从前创立了一个用AI驱动的社交网络渠道Lunchclub,而且也曾就读于哈佛大学。 他的弟弟Neal Wu,也是公司的职工。 在参加Cognition AI之前也在包含谷歌等多家公司作业过,是一名经验丰富的软件工程师和出售。 本科相同结业于哈佛大学计算机专业。 他们兄弟俩在十分青年时期就参加了许多世界编程竞赛和科学奥赛,获奖无数。 不只如此,团队的其他成员,也都是大佬级的存在。 还有一个nobody。
其中,Andrew He从6年级开端,参加了各种数学竞赛。在2014年和2015年的世界信息学奥林匹克大赛上取得了2枚金牌。他就读于MIT,并于2019年结业,取得了数学和计算机科学学士学位。 如此丰富的编程竞赛阅历,关于他们开发这个编程AI智能体有着十分大的协助。众所周知,编程竞赛的中心便是要迅速精确地处理编程难题,着重快速处理杂乱问题的才能,而且关于立异的处理问题的思路有着很高的要求。在CEO Scott Wu看来,团队共同的背景让他们在这个范畴有十分强大的优势。
将AI培养成程序员,实践上是一个杂乱的算法应战,这需求AI体系可以做出杂乱的决策,并能预见未来几步,从而挑选正确的路径。这简直便是咱们多年来一向在大脑进行的一场场竞赛。现在,咱们需求用AI体系来参加这些竞赛。
Cognition AI首款产品Devin的最大打破在于大大提升计算机推理和规划才能。它要求AI体系不只要猜测语句中的下一个词或代码行的下一个片段,还能像人类一样进行思考,取得处理最终问题最为合理的办法和路径。而行业共识也以为,AI的推理和规划才能将是AI下一步产生最重要打破最有或许的方向。Devin在承受用户用自然言语提出的使命之后,不只可以自主开端作业并完结使命,还会向用户陈述其计划,并实时展示正在运用的指令和代码。如果用户发现过程中的问题,可以即时供给反应。它会在使命进行中立即调整。
而Devin最大的亮点在于,大多数现有的AI体系在处理这类长期使命时往往难以坚持一致性和专心,但它可以在完结数百上千使命时始终不偏离方针。其他计算机科学家或许资深程序员在试用过Devin之后以为,它现已不只仅是一个编程帮手,简直是一个可以独立作业的职工。CEO Wu并没有具体阐明他们的智能体背面运用的AI技能,只是笼统地解释说,团队找到了将大言语模型(例如OpenAI的GPT-4)与强化学习技能相结合的共同办法。