内容一览:强化学习是多学科领域的穿插产物,其本质是实现自动决议计划且可做接连决议计划。本文将介绍 DeepMind 最新研制效果:扩展强化学习使用范围的通用算法 DreamerV3。 关键词:强化学习 DeepMind 通用算法

北京时刻 1 月 12 日,DeepMind 官方推特发文,正式官宣 DreamerV3,这是首个能在游戏「我的国际」(Minecraft) 中不参考人类数据,就能从头开始搜集钻石的通用算法,处理了 AI 领域中的又一重要应战。

DeepMind 发布强化学习通用算法 DreamerV3,AI 成精自学捡钻石

​DeepMind 在推特官宣 DreamerV3

强化学习扩展成问题,发展还需通用算法

强化学习使得核算机能够经过互动处理某一使命,如 AlphaGo 在围棋比赛中打败人类,OpenAI Five 在 Dota 2 中打败业余人类玩家。

DeepMind 发布强化学习通用算法 DreamerV3,AI 成精自学捡钻石

OpenAI Five 在比赛中打败人类玩家研制团队与人类玩家合照

但是,要想将算法使用于新的使用场景,如从棋盘游戏转到视频游戏或机器人使命,就需求工程师不断开发专门的算法 (specialized algorithms),如接连操控、稀疏奖赏、图画输入以及 spatial environments 等。

这要求大量的专业知识和核算资源来微调算法,极大阻止了模型的扩展。创立无需调优就能学习把握新 domain 的通用算法,成为扩展强化学习使用范围、处理决议计划问题的重要途径。

由此,由 DeepMind 和多伦多大学联合研制的 DreamerV3 应运而生。

DreamerV3:根据国际模型的通用算法

DreamerV3 是一种根据国际模型 (World Model) 的通用和可扩展的算法,能在固定超参数的前提下,使用于广泛域 (domain),比专门的算法更出色。

这些 domain 包含接连动作 (continuous action) 和离散动作 (discrete action),视觉输入和低维输入,2D 国际和 3D 国际,不同的数据预算、奖赏频率和奖赏标准等。

DeepMind 发布强化学习通用算法 DreamerV3,AI 成精自学捡钻石

DreamerV3 通用算法与专门算法功能比照

DreamerV3 由 3 个从回放经历 (replayed experience) 中一同练习,且不同享梯度的神经网络组成:

1、world model:猜测潜在动作的未来结果

2、critic:判别每种状况的 value

3、actor:学习如何使有价值的状况成为可能

DeepMind 发布强化学习通用算法 DreamerV3,AI 成精自学捡钻石

DreamerV3 的练习进程

如上图所示,world model 将 sensory input 编码为一个离散表征 zt。zt 由一个具有 recurrent state ht 的序列模型猜测得出,并给出动作 at。input 被重构为学习信号 (learning signal) 从而 shape 表征。

actor 和 critic 从 world model 猜测的笼统表征 trajectory 中学习。

为了更好地适应跨域使命,这些组件需求适应不同的信号强度 (signal magnitudes),并在其目标中稳健地平衡 terms。

工程师在超越 150 个固定参数的使命上对 DreamerV3 进行了测验,并与文献中记载的最佳办法进行比较,试验标明,DreamerV3 关于不同 domain 的使命,均具有较高通用性和可扩展性。

DeepMind 发布强化学习通用算法 DreamerV3,AI 成精自学捡钻石

​基准概览 所有 agent 都是在 NVIDIA V100 GPU 上练习

DreamerV3 在 7 个基准测验中都取得了优异成绩,并在 state 和 image 的 continuous control、BSuite 和 Crafter 上都建立了新的 SOTA 水平。

但是 DreamerV3 仍然具有一定的局限性,例如当 environment steps 在 1 亿以内时,算法并不能像人类玩家一样,在所有场景中都捡到钻石,而是偶尔捡到。

站在巨人的膀子上,回顾Dreamer宗族发展史

一代目:Dreamer

发布时刻:2019 年 12 月

参与组织:多伦多大学、DeepMind、Google Brain

论文地址:arxiv.org/pdf/1912.01…

算法简介:

Dreamer 是一个强化学习 agent,能够仅经过 latent imagination 从图画中处理 long-horizon 使命。

它根据模型猜测的反向传达,来利用 world model 实现高效的行为学习。在 20 个极具应战性的视觉操控使命中,Dreamer 在数据功率、核算时刻和终究功能方面均超越了其时的干流办法。

DeepMind 发布强化学习通用算法 DreamerV3,AI 成精自学捡钻石

Dreamer 与其时干流办法的功能比较

Dreamer 继承了 PlaNet 的数据功率,一同超越了其时最好的 model-free agent 的渐近功能 (asymptotic performance)。5106 个 environment step 后,Dreamer 在各个使命中的平均功能达到了 823,而 PlaNet 仅为 332,最高的 model-free D4PG agent 在 108 步之后为 786。

二代目:DreamerV2

发布时刻:2020 年 10 月

参与组织:Google Research、DeepMind、多伦多大学

论文地址:arxiv.org/pdf/2010.02…

算法简介:

DreamerV2 是一个强化学习 agent,能够从 world model 紧凑隐空间 (compact latent space) 的猜测中学习行为。

注:该 world model 使用离散表征,并且与战略分隔练习。

DreamerV2 是第一个经过在单独练习的 world model 中学习行为,在 Atari 基准的 55 项使命中达到人类水平的 agent。在相同的核算预算和 wall-clock time 状况下,DreamerV2 达到了 2亿帧,超越了顶级 single-GPU agents IQN 及 Rainbow 的终究功能。

此外,DreamerV2 也适用于有接连动作的使命,它学习了一个复杂的类人型机器人的 world model,只经过像素输入就处理了站立和行走问题。

DeepMind 发布强化学习通用算法 DreamerV3,AI 成精自学捡钻石

​玩家在 Atari 基准 55 个游戏的正则化中位数得分

推特网友评论区带头玩梗

关于 DreamerV3 的诞生,不少网友也在 DeepMind 推特留言区抖起了机伶。

DeepMind 发布强化学习通用算法 DreamerV3,AI 成精自学捡钻石

解放人类,再也不用玩「我的国际」了。

DeepMind 发布强化学习通用算法 DreamerV3,AI 成精自学捡钻石

别光顾着玩游戏了,干点正事儿吧!@DeepMind 和 CEO Demis Hassabis

DeepMind 发布强化学习通用算法 DreamerV3,AI 成精自学捡钻石

「我的国际」终极 BOSS 末影龙瑟瑟发抖中。

近年来,游戏「我的国际」已成为强化学习研究的一个焦点,围绕在「我的国际」中进行钻石搜集的国际比赛现已举办屡次。

在没有人类数据的状况下处理这一应战,被广泛认为是人工智能的一个里程碑,因为在这个程序生成的敞开国际环境 (open-world environment) 中,奖赏稀疏、探究困难、时刻跨度长,这些妨碍的存在使得从前的办法都需求根据人类数据或教程。

DreamerV3 是第一个从 0 开始在「我的国际」中彻底自学搜集钻石的算法,它使得强化学习的使用范围进一步扩展,正如网友们所说,DreamerV3 现已是个成熟的通用算法了,该学会自己挂机晋级打怪,跟终极 BOSS 末影龙对线了!

DeepMind 发布强化学习通用算法 DreamerV3,AI 成精自学捡钻石

重视 HyperAI超神经,了解更多有趣的 AI 算法、使用;还有定时更新教程,一同学习进步!