我们常常被教育的做事“三思而后行”,充分运用堆集过的经历,现在这句话对AI也有所启示了。
传统的决议计划AI模型由于忘记效应的存在不能有用堆集经历,但一项由华人主导的研讨改变了AI的回忆方法。
新的回忆方法仿照了人类大脑,有用地提高了AI堆集经历的功率,然后将AI打游戏的成绩提高了29.9% 。
研讨团队由六人组成,分别来自米拉-魁北克AI研讨院和微软蒙特利尔研讨所,其间有四名是华人。
他们将效果命名为的带有回忆的决议计划Transformer(DT-Mem)。
相比传统的决议计划模型,DT-Mem适用广泛性更强,模型运算的功率也更高。
除了运用效果,DT-Mem的练习时刻也从最短200小时缩短至50小时。
一起,团队还提出了一种微调方法,让DT-Mem可以习惯未练习过的新场景。
微调后的模型,面临没有学习过的游戏,也能具有不错的体现。
作业机制受到人类启示
传统的决议计划模型依据LLM进行规划,选用隐性回忆,其性能依赖于数据和核算。
隐性回忆是无意识产生而非故意记住的,因而也无法有意识地进行调用。
说得通俗一些,便是分明有关内容就存储在那里,可是模型却并不知道它的存在。
隐性回忆的这一特色决议了传统模型存在忘记现象,导致其作业功率往往不高。
忘记现象体现为,在学了新的问题解决方法之后,模型或许会将旧的内容忘记,哪怕新旧问题是同一类型。
而人脑选用分布式回忆存储方法,回忆的内容被分散存储在大脑中的多个不同区域。
这种方法有助于有用地管理和安排多种技术,然后减轻忘记现象。
受此启示,研讨团队提出了一个内部作业回忆模块来存储、混合和检索不同下游使命的信息。
详细而言,DT-Mem由Transformer、回忆模块和多层感知(MLP)模块三部分组成。
DT-Mem的Transformer仿照了GPT-2的架构,但删去了注意力机制后的前馈层。
一起,GPT-2中的MLP模块被拆分成了独立组件,作为DT-Mem的一部分。
在二者之间,研讨团队引入了一个作业回忆模块,用于存储和处理中间信息。
这一结构是受到神经图灵机的启示,其间的回忆被用于推断多种算法。
回忆模块剖析Transformer输出的信息,并决议其存储方位以及与已有信息的整合方法。
此外,该模块还要考虑这些信息在往后做出决议计划的进程当中怎么运用。
这些使命大概通过五个进程来完结,回忆模块首要被初始化为一个随机矩阵。
然后是对输入信息的整理,这一步并不是将信息传给Transformer,而是以元组形式存入同一空间。
之后就要确认存储方位。人类一般会将相关的信息存储到同一方位,DT-Mem也是依据这一原理。
最终两步——回忆更新和检索是回忆模块的中心,也是整个DT-Mem中最重要的环节。
回忆更新,即对已有信息进行编辑替换,以保证信息能依据使命需求及时更新。
这一步中DT-Mem会核算擦除和写入两个向量,从而判别怎么与已有数据混合。
回忆检索则是对已有信息的访问和恢复,在需求做出决议计划时及时调取相关有用信息。
投入实际运用之前,DT-Mem还要经历预练习进程。
而关于DT-Mem的微调,团队也提出了一种新的方法。
由于运用的是依据使命进行标记的数据,这种微调可以协助DT-Mem习惯新的使命。
这一进程依据低秩习惯(LoRA)进行,在已有的矩阵中参加低秩元素。
练习时刻最多缩短32倍
为了测验DT-Mem的决议计划才能,研讨团队让它玩了几款游戏。
游戏一共有5款,全部来自Atari公司。
一起,团队还测验了传统模型M[ulti-game]DT的体现作为参照。
结果,DT-Mem在其间4款游戏里的最好成绩均胜过MDT。
详细而言,DT-Mem比MDT的DQN标准化分数提高了29.9%。
可是,DT-Mem的参数量只要20M,仅是MDT(200M参数)的10%。
这样的体现,说是四两拨千斤一点也不过火。
除了体现优异,DT-Mem的练习功率也完爆MDT。
13M参数量版别的MDT需求200小时进行练习,而20M的DT-Mem却只需求50个小时。
假如和200M的版别相比,练习时刻足足缩短了32倍,体现却更优异。
而针对团队提出的微调方法的测验结果也标明,这种微调增强了DT-Mem习惯不知道情景的才能。
需求说明的是,下表中用来测验的游戏关于MDT来说是已知的,因此MDT的体现在这一轮当中不作为衡量依据。
除了玩游戏,团队还运用了Meta-World ML45基准对DT-Mem进行了测验。
这次用作参照的是H[yper]DT和P[romot]DT。
结果显示,未经微调的模型当中,DT-Mem成绩比HDT高出8个百分点。
需求说明的是,这儿测验的HDT自身参数量虽然只要69K,但需依赖于2.3M参数量的预练习模型,因此实际的参数量是DT-Mem(147K)的10余倍。
论文地址:
arxiv.org/abs/2305.16…
—完—