我们常常被教育的做事“三思而后行”,充分运用堆集过的经历,现在这句话对AI也有所启示了。

传统的决议计划AI模型由于忘记效应的存在不能有用堆集经历,但一项由华人主导的研讨改变了AI的回忆方法。

新的回忆方法仿照了人类大脑,有用地提高了AI堆集经历的功率,然后将AI打游戏的成绩提高了29.9%

AI模仿人脑记忆模式,游戏成绩大涨29.9%

研讨团队由六人组成,分别来自米拉-魁北克AI研讨院和微软蒙特利尔研讨所,其间有四名是华人。

他们将效果命名为的带有回忆的决议计划Transformer(DT-Mem)。

相比传统的决议计划模型,DT-Mem适用广泛性更强,模型运算的功率也更高。

除了运用效果,DT-Mem的练习时刻也从最短200小时缩短至50小时。

一起,团队还提出了一种微调方法,让DT-Mem可以习惯未练习过的新场景。

微调后的模型,面临没有学习过的游戏,也能具有不错的体现。

作业机制受到人类启示

传统的决议计划模型依据LLM进行规划,选用隐性回忆,其性能依赖于数据和核算。

隐性回忆是无意识产生而非故意记住的,因而也无法有意识地进行调用。

说得通俗一些,便是分明有关内容就存储在那里,可是模型却并不知道它的存在。

隐性回忆的这一特色决议了传统模型存在忘记现象,导致其作业功率往往不高。

忘记现象体现为,在学了新的问题解决方法之后,模型或许会将旧的内容忘记,哪怕新旧问题是同一类型。

而人脑选用分布式回忆存储方法,回忆的内容被分散存储在大脑中的多个不同区域。

这种方法有助于有用地管理和安排多种技术,然后减轻忘记现象。

受此启示,研讨团队提出了一个内部作业回忆模块来存储、混合和检索不同下游使命的信息。

详细而言,DT-Mem由Transformer、回忆模块和多层感知(MLP)模块三部分组成。

AI模仿人脑记忆模式,游戏成绩大涨29.9%

DT-Mem的Transformer仿照了GPT-2的架构,但删去了注意力机制后的前馈层。

一起,GPT-2中的MLP模块被拆分成了独立组件,作为DT-Mem的一部分。

在二者之间,研讨团队引入了一个作业回忆模块,用于存储和处理中间信息。

这一结构是受到神经图灵机的启示,其间的回忆被用于推断多种算法

回忆模块剖析Transformer输出的信息,并决议其存储方位以及与已有信息的整合方法。

此外,该模块还要考虑这些信息在往后做出决议计划的进程当中怎么运用。

AI模仿人脑记忆模式,游戏成绩大涨29.9%

这些使命大概通过五个进程来完结,回忆模块首要被初始化为一个随机矩阵。

然后是对输入信息的整理,这一步并不是将信息传给Transformer,而是以元组形式存入同一空间。

之后就要确认存储方位。人类一般会将相关的信息存储到同一方位,DT-Mem也是依据这一原理。

最终两步——回忆更新和检索是回忆模块的中心,也是整个DT-Mem中最重要的环节。

回忆更新,即对已有信息进行编辑替换,以保证信息能依据使命需求及时更新。

这一步中DT-Mem会核算擦除和写入两个向量,从而判别怎么与已有数据混合。

回忆检索则是对已有信息的访问和恢复,在需求做出决议计划时及时调取相关有用信息。

投入实际运用之前,DT-Mem还要经历预练习进程。

AI模仿人脑记忆模式,游戏成绩大涨29.9%

而关于DT-Mem的微调,团队也提出了一种新的方法。

由于运用的是依据使命进行标记的数据,这种微调可以协助DT-Mem习惯新的使命。

这一进程依据低秩习惯(LoRA)进行,在已有的矩阵中参加低秩元素。

AI模仿人脑记忆模式,游戏成绩大涨29.9%

练习时刻最多缩短32倍

为了测验DT-Mem的决议计划才能,研讨团队让它玩了几款游戏。

游戏一共有5款,全部来自Atari公司。

一起,团队还测验了传统模型M[ulti-game]DT的体现作为参照。

结果,DT-Mem在其间4款游戏里的最好成绩均胜过MDT。

详细而言,DT-Mem比MDT的DQN标准化分数提高了29.9%。

AI模仿人脑记忆模式,游戏成绩大涨29.9%

可是,DT-Mem的参数量只要20M,仅是MDT(200M参数)的10%。

这样的体现,说是四两拨千斤一点也不过火。

除了体现优异,DT-Mem的练习功率也完爆MDT。

13M参数量版别的MDT需求200小时进行练习,而20M的DT-Mem却只需求50个小时。

假如和200M的版别相比,练习时刻足足缩短了32倍,体现却更优异。

AI模仿人脑记忆模式,游戏成绩大涨29.9%

而针对团队提出的微调方法的测验结果也标明,这种微调增强了DT-Mem习惯不知道情景的才能。

需求说明的是,下表中用来测验的游戏关于MDT来说是已知的,因此MDT的体现在这一轮当中不作为衡量依据。

AI模仿人脑记忆模式,游戏成绩大涨29.9%

除了玩游戏,团队还运用了Meta-World ML45基准对DT-Mem进行了测验。

这次用作参照的是H[yper]DT和P[romot]DT。

结果显示,未经微调的模型当中,DT-Mem成绩比HDT高出8个百分点。

需求说明的是,这儿测验的HDT自身参数量虽然只要69K,但需依赖于2.3M参数量的预练习模型,因此实际的参数量是DT-Mem(147K)的10余倍。

AI模仿人脑记忆模式,游戏成绩大涨29.9%

论文地址:
arxiv.org/abs/2305.16…