2022年5月12日
大约在 24 年前,Google 由两名研讨生创建,其时 Google 具有一个产品,以及一个远大的使命:整合全球信息,供大众运用,使人人获益。在那之后的几十年里,咱们一向在推进咱们的技能来完结这一使命。
咱们所取得的前进源于咱们多年来对先进技能的投入,从人工智能到为这一切供给动力的技能基础设施。每年一次,在我一年中最喜爱的一天:) 咱们在 Google I/O 与咱们共享最新开展。
今日,我谈到了咱们怎么前进咱们使命的两个基本方面——常识和核算的开展——来创造可以供给协助的产品。开发这些产品是令人兴奋的;更令人兴奋的是看到这些产品可以协助咱们做些什么。
感谢一切协助咱们完结这项作业的人,尤其是 Google 的搭档们。咱们很感激有这次时机。
– Sundar
以下是 Sundar Pichai 在今日的 Google I/O 开发者大会开幕式上宣告的主题讲演全文。
咱们好,欢迎咱们!时隔三年,能再回到海岸线圆形剧场的感觉真好!我想对不计其数的开发者、协作伙伴和 Google 的搭档们说:“很快乐见到咱们”,也想对在国际各地收看此次大会的数百万观众朋友们说,“很快乐咱们能来”。
上一年,咱们共享了在一些最具技能性应战的核算机科学范畴中的新打破,以及这些打破怎么能让 Google 的产品在要害时间发挥更大作用。咱们做的这一切都是为了完结 Google 永恒的使命:整合全球信息,供大众运用,使人人获益。
我也刻不容缓地想给咱们展现 Google 是怎么经过两种要害方法来推进这一使命的完结:其一,深化咱们对信息的了解,从而将信息转化为常识;其二,推进核算机技能开展,不管咱们身在何处,都能方便快捷地获取信息和常识。
今日,咱们将看到咱们在上述两种方法上取得的开展,以及这些开展是怎样保证 Google 的产品可以惠及大众。我先举几个简单的比如。在新冠疫情期间,Google 一向致力于供给精确的信息,协助咱们坚持健康。上一年,有近 20 亿次查找是运用 Google Search 和 Google Maps 来寻觅疫苗接种点的。
上一年,Google 的洪水猜测技能向在印度及孟加拉国的 2300 万人发送了洪水预警
咱们还进步了 Google 的洪水猜测技能,能让面对天然灾害的人们安全无恙。在上一年的季风季,咱们向在印度及孟加拉国的 2300 多万人发送了洪水预警。据咱们估计,这协助了不计其数的人及时疏散。
Google 翻译新增了 24 种言语
在国际各国,Google 翻译现已成为了外来客与当地居民相互交流的重要工具。
经过机器学习技能,咱们给 Google 翻译新增了包含盖丘亚语在内的新语种
实时翻译的存在证明了常识和核算机技能可以一同让人们的日子愈加夸姣。现在,运用 Google 翻译的人数之多,远超以往,但咱们不能止步于此,还应让 Google 翻译愈加普及。现在还有许多言语在互联网上呈现得没有那么频繁,翻译这些言语是一个技能难题,因为用来练习翻译模型的文本一般是双语文本,像是同一个短语的英语和西班牙语版本,但并非一切言语都有足量的揭露双语文本。
因此,跟着机器学习的前进,咱们开发了一种单语方法,能让翻译模型在从未见过某种新言语的直译版本的状况下,直接去学习翻译此新言语。经过与母语人士及当地机构协作,咱们发现用单语方法进行的翻译质量合格,咱们也将进一步进步翻译质量。
咱们为 Google 翻译新增了24种新言语
今日,我很激动地宣告,咱们为 Google 翻译新增了 24 种新言语,包含首批添加的美洲原住民言语。合计有 3 亿多人在运用这 24 种言语,这样的打破正在推进咱们获取常识和运用电脑的方法发生根本性转变。
Google Maps 新晋级
许多关于咱们这个国际的可知信息都逾越了言语的范畴——它们存在于咱们周围的物理和地舆空间中。超越 15 年来,Google Maps 一向致力于将这些信息以丰厚且有用的方法呈现出来,以协助用户导航。AI 的前进正在将这项作业推向新的高度,不管是将咱们的掩盖规划扩大到偏僻区域,仍是重新幻想怎么以更直观的方法探究国际。
AI 的前进有助于制造偏僻和农村区域的地图
到现在为止,咱们已在国际各地制造了大约 16 亿座修建和超越 6000 万公里的道路。由于缺少高质量的图画和明晰的修建类型和地貌特征,以前一向难以制造一些偏僻区域和农村区域的修建和道路信息。为了处理这个问题,咱们正在运用核算机视觉和神经网络技能,从卫星图画中勘探修建物。自 2020 年 7 月以来,Google Maps 上的非洲修建物数量添加了 5 倍,从 6000 万幢添加到了近 3 亿幢。
本年,咱们在印度和印度尼西亚制造的修建物数量也添加了一倍。在全球规划内,Google Maps 上超越 20% 的修建物都现已运用这些新技能进行了勘探。在此基础上,咱们还向大众揭露了非洲的修建物数据集,联合国和国际银行等国际组织现已在运用这些信息,以更好地了解当地人口密度,并供给支持和紧迫协助。
Google Maps 中的沉溺式视图将航拍和街景图画交融
咱们也为 Google Maps 带来了新的功用。运用 3D 绘图和机器学习技能的前进,咱们正在交融数十亿张航拍和街景图画,以创建一个新的高保真的地图。咱们将这些打破性的技能结合在一同,为用户供给了一种沉溺式视图的新体会,运用户可以以史无前例的方法探究一个当地。
让咱们去伦敦看看吧。假定用户方案和家人一同参观威斯敏斯特。用户现在可以直接从手机上的 Google Maps 取得这种身临其境的视界,还可以在景点周围移动……这便是威斯敏斯特大教堂。假如用户想前往大本钟,那么可以在地图上看到去往大本钟的道路交通是否拥堵,乃至可以看到天气预报。假如还想在参观期间吃点东西,用户可以检查附近的餐厅,而且到餐厅的里面看看。
令人惊奇的是,这并不是有一架无人机在餐厅里飞翔拍摄——这是咱们运用神经烘托技能,仅经过图画来创造的体会。Google Cloud Immersive Stream 让这种体会可以在几乎一切智能手机上运转。这项功用将于本年晚些时分在 Google Maps 中针对全球部分城市推出。
Google Maps 的另一个重大晋级是咱们推出了环保道路。这项功用已于上一年落地,它可以为用户显现最节约油耗的道路,供给愈加节约而且削减碳排放的挑选。环保道路现已在美国和加拿大推出,用户现已依照这些道路行进了约 860 亿英里,削减了约 50 万公吨的碳排放,相当于路面上削减了 10 万辆正在行进的轿车。
环保道路将于本年晚些时分扩展到欧洲
我很快乐与咱们共享,咱们正在将这项功用扩展到更多的当地,包含在本年晚些时分将扩展到欧洲。在柏林地图的示例中,用户可以挑选仅慢三分钟的道路,将油耗下降 18%。这些细小的决定将发生巨大的影响。跟着这项功用扩展至欧洲及其他区域,咱们估计到本年年底可以节约的碳排放量将添加一倍。
咱们同样在 Google Flights 上添加了一个相似的功用。当用户查找两个城市之间的航班时,咱们也会向用户显现碳排放估值以及价格和时间表等其他信息,让用户轻松挑选愈加环保的航班。Google Maps 和 Google Flights 中的这些环保功用是咱们十分重要的方针,即让 10 亿人经过咱们的产品做出更可继续的挑选,咱们十分快乐可以看到这些开展。
YouTube 新功用协助用户轻松拜访视频内容
除了 Google Maps 之外,视频正在成为咱们共享信息、相互交流和学习必不可少的载体。许多时分用户在进入 YouTube 后,是期望在 YouTube 中找到一个视频中的特定片段,咱们期望协助用户更快地获取所需信息。
上一年,咱们推出了主动生成的章节,让用户可以更轻松地跳转到最感兴趣的部分。这对创作者来说也是很棒的功用,因为它节省了创作者制造章节的时间。咱们现在正在运用 DeepMind 的多形式技能,这项技能可以同时运用文本、音频和视频,并以更高的精确性和更快的速度主动生成章节。有了这个功用,咱们现在的方针是将主动生成章节的视频数量添加 10 倍,从现在的 800 万到下一年的 8000 万。
一般,了解视频内容的最快方法是阅览它的脚本,所以咱们也在运用语音辨认模型来转录视频。现在一切 Android 和 iOS 的用户都可以获取视频的脚本。
YouTube 上的主动生成章节
接下来,咱们将把 YouTube 上的主动翻译字幕运用到移动设备上。这意味着观众现在可以获取 16 种主动翻译的视频字幕,创作者也可以借此吸引全球观众。
Google Workspace 协助进步作业效率
正如咱们运用 AI 来改善 YouTube 的功用相同,咱们也正在将 AI 构建到 Workspace 系列产品中,以协助人们进步作业效率。不管你是在小型企业仍是大型机构作业,或许都需求花费大量时间阅览文件。或许你现在就回想起了当你有一份 25 页的文件要阅览,而会议将在 5 分钟后开端的那种恐慌。
在 Google,每当我收到一份长的文件或电子邮件时,我都会在顶部寻觅“TL;DR”——“太长未读”的缩写。这让咱们想到,假如更多的作业可以有“TL;DR”,日子不是会更好吗?
这便是为什么咱们为 Google Docs 引进了主动总结功用。将咱们其间一个机器学习模型运用在文本总结功用种,Google Docs 将主动解析单词并提取出要点。
这标志着天然言语处理的一个大飞跃。总结需求了解长段落、压缩信息并生成言语,而这些现已超出曩昔最好的机器学习模型的才能。
而文档只是一个开端。咱们正尽力将总结功用引进 Google Workspace 的其他产品。在接下来的几个月里,Google Chat 将运用该功用,为聊天对话供给摘要,协助用户敏捷加入群聊,或回顾重点信息。
在未来几个月内,咱们将在 Google Chat 中加入总结功用
而且咱们正在尽力将转录和总结功用引进 Google Meet。这样,用户可以快速补上重要会议中错过的部分。
改善 Google Meet 视频
当然,许多时分你真的十分期望有一个虚拟房间,可以让你和他人待在一同。这便是为什么咱们在 Project Starline 的启发下,继续前进音频和视频质量。咱们在上一年的 I/O 大会上介绍了 Project Starline。咱们一向在 Google 的各个办公室进行测验,寻求反应并为未来改善技能。在这个进程中,咱们发现了一些可以马上运用于 Google Meet 的技能。
Project Starline 启发了机器学习驱动的图画处理,可以主动改善 Google Meet 的图画质量。而且这项技能适用于一切类型的设备,因此不管你在哪里,都能展现你的最佳形象。
机器学习驱动的图画处理,主动前进了 Google Meet 的图画质量
咱们还为 Google Meet 带来了摄影棚规格的虚拟灯火。你可以调整灯火的方位和亮度,所以即运用户身处黑暗的房间或坐在窗前依然可以被明晰看到。咱们正在测验这项功用,以保证人像愈加实在,这也是咱们在 Pixel 手机上的 Real Tone 和 Monk Scale 所做的作业的推进。
这些只是运用 AI 改善咱们产品的其间一些方法:使产品更有协助,更简单取得,并为每个人供给创新的新功用。
今日在 I/O 大会上,Prabhakar Raghavan 共享了咱们怎么协助人们运用 Google Search 以更直观的方法找到有用的信息
经过核算使常识更易取得
咱们现已谈到了咱们怎么推进常识的获取作为咱们使命的一部分:从更好的言语翻译到改善的跨图画和视频的查找体会,到运用地图对国际进行更丰厚的探究。
现在咱们致力于经过核算使这些常识更简单取得。咱们在核算方面所走过的旅程令人兴奋。从桌面到网络到移动设备到可穿戴设备的每一次转变,以及环境核算都使常识在咱们的日常日子中愈加有用。
虽然咱们的设备很有协助,但咱们不得不相当尽力地去习惯它们。我一向以为应该由核算机来习惯人,而不是人来习惯核算机。咱们将继续寻找这方面的开展。
这里是咱们怎么运用 Google Assistant 使核算愈加天然和直观地呈现。
推出 LaMDA 2 和 AI Test Kitchen
咱们研制的用于对话应有的生成言语模型 LaMDA 的 Demo,以及 AI Test Kitchen
咱们在继续尽力进步人工智能的对话才能。对话和天然言语处理都能让人们以更简单的方法运用核算机。大型言语模型是完结这一方针的要害。
上一年,咱们发布了 LaMDA,这是一个用于对话运用的生成言语模型,可就任何主题展开对话。今日,咱们很快乐能揭露 LaMDA 2,Google 现在打造的最先进的对话 AI。
现在,这些模型的实际运用还处于初始阶段,咱们有责任去不断完善它们。为了取得开展,咱们需求运用者体会技能并供给反应。咱们现已向数千名乐意参与测验和了解其功用的 Google 搭档们敞开了 LaMDA,明显进步了它的对话质量,削减了不精确或得罪性的回复。
这便是咱们要研制 AI Test Kitchen 的原因,这是一种与更大规划的用户一同探究 AI 功用的新方法。AI Test Kitchen 有数种不同的体会方法,每种方法都旨在让用户了解自己在实际日子中怎么运用 LaMDA。
第一个 Demo 是“幻想”,测验模型是否可以了解用户供给的创意,生成赋有幻想力的相关描绘。这些体会方法不是产品,只是让咱们和你能一同探究 LaMDA 能做什么。用户界面十分简单。
假定你正在写一个故事,需求一些创意。或许你的人物之一正在探究深海,那么你可以问 LaMDA,在这种情境下会有什么感觉。在此,LaMDA 描绘了马里亚纳海沟里的一个场景,它乃至还可以即时生成后续问题。你可以让 LaMDA 幻想一下那里或许日子着什么样的生物。需求着重的是,咱们并没有为一些特定论题,比如潜水艇或生物发光进行手动编程,而是 LaMDA 自己依据练习数据整合了这些概念。这便是为什么你几乎可以问询任何论题:土星环,乃至是“由冰淇淋制成的星球”。
不跑题是言语模型的一大应战。在打造机器学习体会的进程中,咱们期望它既满足敞开,让人们可以探究好奇心会把他们带到哪里,又集中于论题本身。咱们的第二个 Demo 展现了 LaMDA 怎么做到这一点。
在这个 Demo 中,咱们设置模型专心于与狗相关的主题。它首要生成了一个能开启对话的问题:“你有没有想过为什么狗这么喜爱玩捡东西?”假如你问一个后续问题,你会得到更细化的答案:狗觉得很风趣,这和狗的嗅觉和打猎感有关。
用户可以就任何方面展开后续对话。或许你对狗的嗅觉的作业原理感到好奇,而且想更深化地研讨。那么,你也能得到专门的回复。不管你问什么,LaMDA 都会尽力将对话限定在与狗相关的这一论题规划内。假如我开端问板球相关的问题,那么模型或许会以一种风趣的方法将对话带回狗身上。
坚持不离题是个很扎手的应战,要想运用运用言语模型打造有用的运用程序,这是很重要的一个研讨范畴。
AI Test Kitchen 的这些体会表明了言语模型有协助咱们进行方案、了解国际和完结许多其它作业的潜力。
当然,在这些模型实在有用之前,还需求处理一些重大应战。虽然咱们前进了安全性,但该模型仍或许生成不精确、不适当或得罪性的回应。这便是咱们活跃邀请用户供给反应的原因,这样他们就可以反应问题。
咱们将依照 Google AI 的原则进行一切作业。咱们将不断迭代 LaMDA,在未来几个月逐步敞开,并细心、广泛地评价利益相关者的反应——从 AI 研讨人员和社会科学家到人权专家。咱们将把这些反应整合到 LaMDA 的未来版本中,并随时共享咱们的发现。
将来,咱们方案在 AI Test Kitchen 中添加其它新兴 AI 范畴。你可以在 g.com/AITestKitchen 中了解更多。
让 AI 言语模型更强壮
LaMDA 2 具有不可思议的对话才能。此外,为了探究天然言语处理和 AI 的其它方面,咱们最近还揭露了新模型 Pathways Language Model(PaLM)。这是咱们迄今为止研制的最大规划的模型,根据 5400 亿参数练习而成。
PaLM 在许多天然言语处理使命上都有着打破性的体现,例如从文本生成代码,答复数学问题,乃至解释一个笑话。
PaLM 经过扩大模型规划完结了这一点。当咱们将这种大规划模型与一种名为“思想提示链(chain-of- thought)”的新技能结合起来时,结果是令人充满期望的。“思想提示链”让模型可以将需求多步处理的问题转化为一系列的中间进程来处理。
让咱们以一个需求推理的数学问题为例。一般,咱们在运用模型前需求先以其它问题和答案练习它,然后再发问。在这个比如里,问题是:五月有多少个小时?可以看到,模型并没有给出正确的答案。
在“思想提示链”中,咱们给模型输入一对“问题—答案”,同时解释了答案是怎么得出的。这有点像你的老师一步一步地向你解说怎么解题。现在,假如咱们再问模型“五月有多少个小时”或者其它相关问题,它能给出正确答案和解答进程。
“思想提示链”技能让模型能更好地进行推理,给出更精确的答案
“思想提示链”大大前进了 PaLM 的精确性,让它在包含数学问题在内的多个推理基准测验(reasoning benchmarks)中达到了最顶级水平。咱们在不改动模型练习方法的状况下完结了这一切。
此外,功用强壮的 PaLM 还能做到更多。例如,网络上现在或许没有满足多的以你所运用的言语供给的信息。更令人懊丧的是,你所查找的答案或许就在某处,只是没有以你看得懂的言语呈现,而PaLM 供给了一种有望让每个人都更简单取得常识的新方法。
让我展现一个示例,PaLM 可以用孟加拉语(一种有 2.5 亿人运用的言语)答复问题,就像咱们用孟加拉语的问题,以及孟加拉语和英语的答案练习了它相同。
便是这样,现在咱们可以开端用孟加拉语发问:“孟加拉国的国歌是什么?” 趁便说一句,答案是“Amar Sonar Bangla”——PaLM 也答对了。这并不令人惊奇,因为在孟加拉语资猜中很显然能找到相关答案。
你还可以测验一些不太或许以孟加拉语找到相关信息的问题,比如:“纽约流行的披萨配料是什么?”该模型再次以孟加拉语做出了正确答复。虽然它的答复到底有多“正确”,这一点很或许在纽约人之间引发争辩。
令人形象深入的是,PaLM 从未见过孟加拉语和英语之间的对译。咱们也从未练习过它怎么答复问题或翻译!该模型自己将一切功用结合在一同,可以用孟加拉语正确答复问题。咱们可以将这些技能扩展到更多的言语和其他复杂的使命。
咱们对言语模型的潜力十分达观。有朝一日,咱们期望咱们能以用户说的任何言语答复更多问题,让常识在 Google Search 和其它 Google 的工具中更简单被获取。
推出全国际最大的敞开机器学习中心
咱们今日所共享的前进之所以能成为实际,离不开咱们在基础设施方面的继续创新。咱们最近还宣告了 Google 方案向美国各地的数据中心和办公室出资 95 亿美元。
咱们最先进的数据中心之一坐落俄克拉荷马州的梅斯县。我激动地宣告:咱们将为 Google Cloud 客户推出全国际最大的敞开机器学习中心。
咱们最先进的数据中心之一,坐落美国俄克拉荷马州梅斯县
此机器学习中心具有 8 个 Cloud TPU v4 芯片,是 Google 定制,建在为 Google 最大的神经模型供给支持的网络基础设施之上,能供给挨近 9 x 1018 的算力,可以为 Google 的客户供给史无前例的运转复杂模型和作业负荷的才能。咱们期望这将推进很多范畴的创新,从医学、物流,到可继续性开展等等。
提到可继续开展,该机器学习中心已达到 90% 的无碳动力运营。这能协助咱们完结自己的方针,即到 2030 年时,旗下一切的数据中心和园区完结全天候无碳运营,咱们要成为第一个做到这一点的大公司。
在出资数据中心的同时,咱们也在尽力创新 Google 的移动渠道,这样更多的数据处理就可以在本地设备上进行。Google 定制的 Google Tensor 芯片是朝此方向跨进的重要一步。Pixel 6 和 Pixel 6 Pro 旗舰手机已搭载 Google Tensor 处理器,让你的手机直接具有 AI 功用,包含咱们所运用的最好的语音辨认技能。这也是向“让设备更安全”这一方针迈出的一大步。与 Android 的 Private Compute Core 结合后,这项技能可以直接在设备上运转数据驱动的功用,维护你的隐私。
不管是至关重要仍是微乎其微的时间,每天都有人向咱们的产品寻求协助。让这一点成为或许的要害便是在每一步都维护用户的隐私信息。虽然技能正变得日益复杂,但咱们的产品是安全的,从规划上维护隐私,让用户具有控制权,因此,在让全国际更多人能安全上网这一点上,咱们比其他人走得更远。
咱们今日还共享了 Android 等渠道的更新,这些更新正经过智能手机和其他可连接设备,像电视、轿车、手表,向数十亿人供给拜访、连接和信息。
咱们还共享了最新的 Pixel 系列产品,包含Pixel 6a, Pixel Buds Pro, Google Pixel Watch, Pixel 7 和 Pixel 平板电脑,一切产品均融入了环境核算的规划。咱们也很快乐能经过一系列设备更好地为用户供给协助。
核算技能新前沿——增强实际技能
今日,咱们讨论了一切正在改动咱们的技能,它们改动了咱们运用核算机的方法和获取常识的方法。不管何时何地,只需有需求,咱们都可以找到互联互通、紧密协作的设备。而对话界面的加持更为完结使命供给便利。
展望未来,信息技能范畴有了一个新战线,它具有推进现有技能继续开展的潜质,它便是增强实际技能(AR)。Google 在 AR 范畴投入颇多:咱们已将 AR 引用到许多产品傍边,包含Google Lens、多重查找(multisearch)、场景探究(scene exploration)以及 Google Maps 的 Live Views 和沉溺式视图功用。
AR 各项性能已运用于手机终端,其奇特之处在于它可以在实际国际中为咱们带来最实在、天然的体会,似乎咱们并非在运用科技。
最令人振奋的是 AR 的潜力,也便是它能使咱们去重视实在的国际、实在的日子。要知道,咱们所日子的这个国际本就精彩无限!
咱们根据实际国际进行创作规划,绝不脱离实际,这一点至关重要。AR 恰恰是可以协助咱们完结这种规划理念的新方法。
以言语为例,言语是人与人之间交流的基础。但是,假如对方讲着另一种言语,或者会话的一方有听觉妨碍时,交流就变得困难重重。咱们来看看当咱们将最新技能运用在翻译和言语转录中,并在早期测验原型中呈现出来时,会呈现什么作用。
在 这个视频 中可以看到人们可以天然、顺畅地与他人交流,他们的脸上洋溢着喜悦。了解与被了解,那联通的一刻正是咱们在常识和核算机技能方面所重视的,是咱们经过产品协助人们完结的,也是咱们每日奋斗追逐的方针。
每一年,咱们都在向咱们的终极使命跨进,未来的路还很长。Google 逼真地为此感到振奋!咱们抱以达观的态度,深信咱们取得的打破将引领咱们完结使命。感谢一切与会开发者、协作伙伴和顾客。咱们等待与各位一同共筑未来。