AI模仿人脑记忆模式，游戏成绩大涨29.9%-六虎

我们常常被教育的做事“三思而后行”，充分运用堆集过的经历，现在这句话对AI也有所启示了。

传统的决议计划AI模型由于忘记效应的存在不能有用堆集经历，但一项由华人主导的研讨改变了AI的回忆方法。

新的回忆方法仿照了人类大脑，有用地提高了AI堆集经历的功率，然后将AI打游戏的成绩提高了29.9% 。

研讨团队由六人组成，分别来自米拉-魁北克AI研讨院和微软蒙特利尔研讨所，其间有四名是华人。

他们将效果命名为的带有回忆的决议计划Transformer(DT-Mem)。

相比传统的决议计划模型，DT-Mem适用广泛性更强，模型运算的功率也更高。

除了运用效果，DT-Mem的练习时刻也从最短200小时缩短至50小时。

一起，团队还提出了一种微调方法，让DT-Mem可以习惯未练习过的新场景。

微调后的模型，面临没有学习过的游戏，也能具有不错的体现。

作业机制受到人类启示

传统的决议计划模型依据LLM进行规划，选用隐性回忆，其性能依赖于数据和核算。

隐性回忆是无意识产生而非故意记住的，因而也无法有意识地进行调用。

说得通俗一些，便是分明有关内容就存储在那里，可是模型却并不知道它的存在。

隐性回忆的这一特色决议了传统模型存在忘记现象，导致其作业功率往往不高。

忘记现象体现为，在学了新的问题解决方法之后，模型或许会将旧的内容忘记，哪怕新旧问题是同一类型。

而人脑选用分布式回忆存储方法，回忆的内容被分散存储在大脑中的多个不同区域。

这种方法有助于有用地管理和安排多种技术，然后减轻忘记现象。

受此启示，研讨团队提出了一个内部作业回忆模块来存储、混合和检索不同下游使命的信息。

详细而言，DT-Mem由Transformer、回忆模块和多层感知(MLP)模块三部分组成。

DT-Mem的Transformer仿照了GPT-2的架构，但删去了注意力机制后的前馈层。

一起，GPT-2中的MLP模块被拆分成了独立组件，作为DT-Mem的一部分。

在二者之间，研讨团队引入了一个作业回忆模块，用于存储和处理中间信息。

这一结构是受到神经图灵机的启示，其间的回忆被用于推断多种算法。

回忆模块剖析Transformer输出的信息，并决议其存储方位以及与已有信息的整合方法。

此外，该模块还要考虑这些信息在往后做出决议计划的进程当中怎么运用。

这些使命大概通过五个进程来完结，回忆模块首要被初始化为一个随机矩阵。

然后是对输入信息的整理，这一步并不是将信息传给Transformer，而是以元组形式存入同一空间。

之后就要确认存储方位。人类一般会将相关的信息存储到同一方位，DT-Mem也是依据这一原理。

最终两步——回忆更新和检索是回忆模块的中心，也是整个DT-Mem中最重要的环节。

回忆更新，即对已有信息进行编辑替换，以保证信息能依据使命需求及时更新。

这一步中DT-Mem会核算擦除和写入两个向量，从而判别怎么与已有数据混合。

回忆检索则是对已有信息的访问和恢复，在需求做出决议计划时及时调取相关有用信息。

投入实际运用之前，DT-Mem还要经历预练习进程。

而关于DT-Mem的微调，团队也提出了一种新的方法。

由于运用的是依据使命进行标记的数据，这种微调可以协助DT-Mem习惯新的使命。

这一进程依据低秩习惯(LoRA)进行，在已有的矩阵中参加低秩元素。

练习时刻最多缩短32倍

为了测验DT-Mem的决议计划才能，研讨团队让它玩了几款游戏。

游戏一共有5款，全部来自Atari公司。

一起，团队还测验了传统模型M[ulti-game]DT的体现作为参照。

结果，DT-Mem在其间4款游戏里的最好成绩均胜过MDT。

详细而言，DT-Mem比MDT的DQN标准化分数提高了29.9%。

可是，DT-Mem的参数量只要20M，仅是MDT（200M参数）的10%。

这样的体现，说是四两拨千斤一点也不过火。

除了体现优异，DT-Mem的练习功率也完爆MDT。

13M参数量版别的MDT需求200小时进行练习，而20M的DT-Mem却只需求50个小时。

假如和200M的版别相比，练习时刻足足缩短了32倍，体现却更优异。

而针对团队提出的微调方法的测验结果也标明，这种微调增强了DT-Mem习惯不知道情景的才能。

需求说明的是，下表中用来测验的游戏关于MDT来说是已知的，因此MDT的体现在这一轮当中不作为衡量依据。

除了玩游戏，团队还运用了Meta-World ML45基准对DT-Mem进行了测验。

这次用作参照的是H[yper]DT和P[romot]DT。

结果显示，未经微调的模型当中，DT-Mem成绩比HDT高出8个百分点。

需求说明的是，这儿测验的HDT自身参数量虽然只要69K，但需依赖于2.3M参数量的预练习模型，因此实际的参数量是DT-Mem(147K)的10余倍。

论文地址：
arxiv.org/abs/2305.16…

—完—

AI模仿人脑记忆模式，游戏成绩大涨29.9%

作业机制受到人类启示

练习时刻最多缩短32倍

相关文章

前端加载优化小技巧 —— 使用fetchpriority=high属性为页面最大资源的加载提速

2023云栖大会：写诗、作画、谱曲

利用 MMDetection 处理视频

Midjourney API 申请及使用

作者信息