咱们看到机器狗攀爬、跳动、跑酷、开门,但现在,它居然开口说话了。

「可以开端咱们的旅程了吗?」现货伊丽莎白地宣布问询:「请跟我来,先生们!」

波士顿动力机器狗装在ChatGPT大脑当导游,一开口便是老伦敦腔

在最新发布的视频里,波士顿动力取得了将机器狗与法学硕士集成的效果:“Spot先生”时尚高弁冕,藏着小胡子,拥有大眼睛和英国口音,正带人们参观公司的设施。

波士顿动力机器狗装在ChatGPT大脑当导游,一开口便是老伦敦腔

为了让 Spot 可以「开口」,波士顿动力公司使用 OpenAI 的 ChatGPT API 以及一些开源 LLM 来练习,然后为机器人配备了扬声器,增加了文本到语音转化的功用。

所以你可以看到,在宣布声音的同时,现货不间断张开「餐桌」,看起来就像真的在说话:

波士顿动力机器狗装在ChatGPT大脑当导游,一开口便是老伦敦腔

波士顿动力机器狗装在ChatGPT大脑当导游,一开口便是老伦敦腔

波士顿动力公司首席软件工程师 Matt Klingensmith 表示,「Spot 先生」使用 VQA 模型来为图画增加字幕并答复有关图画的问题。

比方你可以发问:“嘿,Spot!你看到了什么?”

「现货先生」快速答复:「我看到了一块二维码的板子,还有一扇很大的窗户。」

波士顿动力机器狗装在ChatGPT大脑当导游,一开口便是老伦敦腔

LLM所谓的“坚定行为”,使其可以履行既定练习之外的使命。正因如此,它们可以适用于各种使用。波士顿动力团队的这次探究是从今年夏天开端的,他们在机器人使用中使用LLM制作一些概念验证演示,这些主意又在一次内部黑客马拉松活动中进行了延伸。

特别是,他们对 Spot 使用 LLM 自主东西的演示很感兴趣,团队的创意来源于 LLM 在角色扮演、仿制文明和评分分数、方案和长期保持连贯性方面的明显才能,以及近期发布的 VQA模型(这些模型可以为图画增加标题并答复有关图画的简略问题)。

技能细节

接下来,让咱们解密如何使用 Spot 的 SDK 打造这样一只「狗导游」。在最新的官方机器博客中,波士顿动力对「Spot 先生」背后的技能进行了详细介绍。

作为导游,Spot 的「机动行走」才能已经是现成的,Spot SDK 也允许用户完成对机器狗的自定义。「Spot 先生」会调查环境中的物体,使用 VQA 或字幕模型对其进行描绘,然后使用LLM对这些描绘进行了详细说明。

团队在现场搜集的三维地图上标示了一些描绘,机器人会依据定位体系找到所在方位的描绘,把其与传感器供给的其他上下文一起输入LLM。然后,LLM将这些内容合成为指令,比方「说”、“问”、“去”或“标签”等。

下图是「Spot先生」导游的修建环境的三维地图,为LLM标示的方位:1 是讲演实验室/阳台;2 是讲演实验室/天桥;3 是博物馆/老景点;4 是博物馆/图集;5是大厅;6是外部/入口。

波士顿动力机器狗装在ChatGPT大脑当导游,一开口便是老伦敦腔

另外,LLM还可以答复者的问题,并方案机器人下一步应该采纳的举动。可以将LLM理解为一个即兴艺人,在有了大致脚本之后,也可以暂时填补空白。

组合的方式充分发挥了LLM的优势,而规避了LLM可能带来的风险:富丽,LLM的错觉很严重,很容易增加一些听起来像是鼻子的细节,幸好在这样的过程中观看,并不太好强调现实的准确性。机器狗只需移动并议论它所看到的事物,就可以带来一些娱乐性、互动性和估值优势。

整体看来,需求树立一些简略的硬件集成和几个良好运转的软件模型:

波士顿动力机器狗装在ChatGPT大脑当导游,一开口便是老伦敦腔

体系地图。

硬件方面,首先是「音频」处理功用,现场既能向观众演示,可以听到观众团的发问和提示。团队用 3D 打印了一个 Respeaker V2 扬声器的防震支架,这是一个环形波形,上面有 LED 指示灯,经过 USB 连接到 Spot 的 EAP 2 有效指示灯上。

机器人的实践控制权被下放给一台机器外电脑(台式电脑或笔记本电脑),该电脑经过SDK与Spot进行通信。

波士顿动力机器狗装在ChatGPT大脑当导游,一开口便是老伦敦腔

「Spot先生」的硬件配备:1)Spot EAP 2;2)Respeaker V2;3)蓝牙扬声器;4)Spot Arm和机械臂摄像头。

软件方面,波士顿动力团队使用了 OpenAI ChatGPT API,包括 gpt-3.5 和 gpt-4,还测试了一些较小的开源 LLM。

这让 Spot 具有了不错的对话才能,ChatGPT 对机器人及其「言语」的控制是经过提示工程完成的。受微软方法的启示,让 ChatGPT 看起来像是在「编写 python 脚本的下一行」 ”,因而来提示ChatGPT。波士顿动力以团队注释的方式为LLM供给了中文文档,然后将LLM的输出python代码进行评价。LLM访问自主SDK、可以带着每个地点单行描绘的旅游景点地图,并能说出口头禅或提出问题。

下面是「API文档」的逐字提示:

#SpotTourGuideAPI.

#UsethetourguideAPItoguidegueststhroughabuildingusing

#arobot.Telltheguestsaboutwhatyousee,andmakeupinterestingstories

#aboutit.Personality:“Youareasnarky,sarcasticrobotwhoisunhelpful”.

#API:

#Causestherobottotraveltoalocationwiththespecifieduniqueid,saysthegivenphrasewhilewalking.

#go_to(location_id,phrase)

#Example:whennearby_locations=['home','spot_lab']

#go_to("home","Followmetothedockingarea!")

#go_tocanonlybeusedonnearbylocations.

#Causestherobottosaythegivenphrase.

#say("phrase")

#Example:say("WelcometoBostonDynamics.IamSpot,arobotdogwithalotofheart!Let'sbeginthetour.")

#Causestherobottoaskaquestion,andthenwaitforaresponse.

#ask("question")

#Example:ask("HiI'mspot.Whatisyourname?")

尔后,波士顿动力团队向LLM供给了一个有关其周边内容重构信息的「状态字典」:

state={'curr_location_id':'home','location_description':'homebase.Thereisadockhere.','nearby_locations':['home','left_side','under_the_stairs'],'spot_sees':'awarehousewithyellowrobotswithlinesonthefloor.'}

最终发送一条提示,要求 LLM 履行某些操作,在本例中,是在 API 中输入操作之一:

#Enterexactlyoneactionnow.Remembertobeconcise:

团队总结的结论是,「牢记简明扼制要」这一点非常重要,既能限制要履行的代码,又能在机器人响应时控制量可控的等待时间。

目前,OpenAI 已经供给了一种构造的方式来指定 ChatGPT 调用的 API,所以在提示符本身中供给所有这些细节已经不是必需的了。

接下来,为了让 Spot 与观众和环境互动,波士顿动力集成了 VQA 和语音转文本软件。他们将 Spot 的机械臂摄像头和前视摄像头输入 BLIP-2,并在 VQA 模型或图画字幕模型中运转。大约每秒运转一次,结果直接输入提示符。

下图是动态字幕和 VQA 回复的示例:

为了让机器人「听见」,他们将麦克风数据分块输入 OpenAI 的 Whisper 程序,将其转化为英文文本。听到唤醒词「嘿,Spot!」后,体系再形成文本输入提示音。

ChatGPT 生成根据文本的回复之后,还需求经过文本转语音东西来运转这些回复,以便机器人可以真正与参观者对话。在测验从沟通的(espeak)到最前沿的研究(bark)等多种在现成的文本转语音方法之后,Boston Power 最终选择了 ElevenLabs。为了减少推迟,他们将文本以「MPP」的方式传输给 TTS,然后串行播放生成音频。

最终一项工作便是为「Spot 先生」创建一些默许的肢体语言。Spot 的 3.3 版本包括检测和跟踪机器人周围移动物体的功用,以提高机器人在和车辆周围的安全性。波士顿动力刚好使用了这个体系假设最近的人那个的方位,然后将手臂转向人。他们在生成的语音上使用了低通滤波器,将其转化为机械手臂轨迹,构成木偶开口说话的方式。特别是在机械臂上加了衣服,瞪大了眼睛之后,错觉到了加强。

更多技能细节,可参考博客原文:

bostondynamics.com/blog/robots…