【新智元导读】 LeCun的高徒费心整理了全套笔记,把他去年在暑假学校讲演国际模型的精华部分悉数囊括。这不得好好拜读下?

LeCun究竟是经过了怎样的思考,才得出了国际模型是AI大模型未来最理想路途的定论?

很幸运,去年曾听过他在暑假学校关于统计物理和机器学习讲演的学生Ania Dawid,将他的观念仔细地整理和发表出来。

LeCun关于她的作业也表明了盛赞。

LeCun高徒超详笔记曝光,Meta世界模型首揭秘!首个「类人」模型怎么来的?

这篇笔记解说了当时机器学习办法的局限性,而且介绍了LeCun在2022年的论文中提出的autonomous AI所需的中心概念,以及规划背面的首要思想。

LeCun高徒超详笔记曝光,Meta世界模型首揭秘!首个「类人」模型怎么来的?
论文地址:arxiv.org/abs/2306.02…

类人智能的或许性

在AI到达类人水平并带来新的技能革新之前,当时的主动化体系依然有重大的局限性。

最理想的情况下,会呈现L5主动驾驭、家用机器人、虚拟助理,这些机器人会学习可靠的国际模型,然后进行推理,对杂乱的举动序列做出方案。

在这些笔记中,Ania Dawid总结了LeCun提出未来自主智能架构背面的首要思想,引入了根据才干的潜变量模型,在LeCun主张构建的模块——分层联合嵌入猜测架构(H-JEPA)中结合了它们的优势。

在曩昔十年中,机器学习办法敏捷遍及,ML模型在围棋、国际象棋和Shogi等战略游戏中都体现出了专家级的性能。

作为交换,创立深度学习模型需求在很多数据集上练习,这是一种极端的核算本钱。

相比之下,人类的学习却十分高效,咱们可以快速直观地找到办法来完成使命,连婴儿都能很快获得对物理国际的直观理解。

怎么让AI模型发展出像人类一样的潜能?在这些讲堂讲稿中,LeCun与学生们探究了autonomous intelligence的概念。

他们期望可以完成一个充分自主的AI,他经过转移常识和主动习惯新情况而在通用使命上体现杰出,无需首先测验很多处理方案。

LeCun高徒超详笔记曝光,Meta世界模型首揭秘!首个「类人」模型怎么来的?

自主机器智能

当时机器学习的局限性

到目前为止,机器学习体系依然在很大程度上依靠于SL,这就需求很多的符号样本,而RL需求很多的实验,这在当时的现实中不切实践。在现实国际中,每个举动都需求时间和本钱。

LeCun高徒超详笔记曝光,Meta世界模型首揭秘!首个「类人」模型怎么来的?

相比之下,人类和动物首要依靠对环境的活跃调查,并以此树立国际模型。

婴儿就几乎彻底经过调查来学习,他们的学习进程与SSL最类似,只有一点点SL(和家长互动)或RL(经过实践测验各种解说方案)。

实践上,人类是幻想和推演大部分红果,而不是悉数测验一遍。

因而,完成彻底自主类人智能的路途首要有三个应战:

1.学习国际的表征和猜测模型,使AI体系可以猜测未来,特别是自己举动会导致的成果。

最有或许的办法便是自监督学习(SSL),因为SL和RL需求太多的本钱或实验。

2.学习以一种与DL兼容的办法推理。推理需求考虑到与前馈潜意识核算相反的意图。最或许的办法便是像energy minimization那样规划推理和规划。

3.学习规划杂乱动作序列,这个进程中需求举动方案的分层(hierarchical)表征。

自主智能的新范式

在论文中,LeCun提出了自主AI应该有的模块化结构。

LeCun高徒超详笔记曝光,Meta世界模型首揭秘!首个「类人」模型怎么来的?

这个AI架构由多个彼此衔接的模块组成。

Perception模块估计国际的当时状况,actor可以运用该状况,并在world model的辅导下提出最佳动作序列,根据actor的动作猜测或「幻想」未来或许的国际状况。

这些联系被称为「感知-方案-举动循环」。

在幻想actor行为的或许后果时,国际模型运用cost推理模块。

它可以分红两个子模块——对痛苦、快乐、饥饿等根本需求进行建模的intrinsic cost,以及猜测内涵本钱未来值的critic。

Short-term memory模块用于猜测未来国际状况。Configurator模块经过配置一切其他模块来完成使命之间的切换。

LeCun高徒超详笔记曝光,Meta世界模型首揭秘!首个「类人」模型怎么来的?
a.在SSL中,体系经过练习,可以从输入的可见部分(蓝色)猜测输入的躲藏部分(橙色)。b. SSL将在未来的AI体系中发挥中心作用,SSL是蛋糕,SL是糖衣,RL是樱桃

模型中的「感知-方案-举动循环」类似于最优控制中的model-predictive control(MPC)。关键的区别在于,国际模型猜测未来是经过学习。

它也不同于RL,因为在这里本钱函数是已知的,一切模块都是可微的,在现实中不需求采取举动。

自监督学习与不确定性表征

自监督学习的首要意图,便是重建输入或猜测输入的缺失部分,如上图a所示。

输入可以是图画、视频或文本。在练习中,模型学习数据的分层表征,因而,SSL的预练习一般先于SL或RL阶段。

它还用于学习猜测(前向)模型MPC,或者学习控制战略,或根据模型的RL。

自监督学习关于文本十分有用,但关于图画来说,当模型被练习进行单一猜测时,练习使它们猜测的是一切或许的平均值,因而,SSL发生了模糊的猜测。

不过,做决定一般不需求猜测国际上一切或许的细节,只需求猜测与使命相关的细节即可。

LeCun高徒超详笔记曝光,Meta世界模型首揭秘!首个「类人」模型怎么来的?

LeCun高徒超详笔记曝光,Meta世界模型首揭秘!首个「类人」模型怎么来的?

根据能量的模型

概率模型需求规范化,因而在高维数据的约束下,或许变得难以处理。

然而,在驾驭汽车的决议计划使命中,体系只需求挑选正确的答案,其他答案的概率是无关紧要的。

因而,咱们可以让模型经过能量函数来表明变量之间的依靠联系(例如下图a所示的决议计划y和条件x)。

在这种情况下,能量辅导模型只需求将最低的能量分配给正确的答案,将较大的能量分配给不正确的答案即可。

LeCun高徒超详笔记曝光,Meta世界模型首揭秘!首个「类人」模型怎么来的?

图b中的能量函数,表明了x和y之间的二次依靠联系。推理涉及为给定的x找到最小能量值。

EBM的一个长处是,可以表明多模态的依靠联系。理论上,还可以以各种形式(文本、视觉等)描述数据之间的依靠联系。

LeCun高徒超详笔记曝光,Meta世界模型首揭秘!首个「类人」模型怎么来的?

LeCun高徒超详笔记曝光,Meta世界模型首揭秘!首个「类人」模型怎么来的?

根据能量的模型与概率模型

在概率设置中,练习包括找到这样的模型参数w,使给定输入的调查输出的或许性最大(或负或许性最小)。

LeCun高徒超详笔记曝光,Meta世界模型首揭秘!首个「类人」模型怎么来的?

第一个等式是根据数据点之间彼此独立的假定,而进行第二个改换,是因为求和核算比乘法核算更简单。

关于概率模型,练习仅限于从负对数似然(如穿插熵)生成的丢失函数。

尽管抛弃概率设置或许会令人惊奇,但请注意,做决议计划可以被视为挑选得分最高的选项,而不是最有或许的选项。

比如在下棋的时候,假如检查一切或许性来决定下一步怎么走,明显十分扎手。

相反,可以经过探究或许性树的一部分,比如用蒙特卡洛树搜索的最短路径,给出最小能量。

因而,没有必要运用概率结构。

LeCun高徒超详笔记曝光,Meta世界模型首揭秘!首个「类人」模型怎么来的?

不过,假如需求的话,也可以经过将能量考虑为非归一化的负对数概率,在EBM和概率模型之间树立联系。

最常见的办法是经过Gibbs-Boltzmann distribution:

LeCun高徒超详笔记曝光,Meta世界模型首揭秘!首个「类人」模型怎么来的?

根据隐变量能量的模型

经过运用依靠于一组潜变量z的额外能量函数,咱们可以扩展EBM的或许性。

这些躲藏变量一般被称为潜变量(latent variables),旨在捕捉在x中无法直接获得的y的信息。

LeCun高徒超详笔记曝光,Meta世界模型首揭秘!首个「类人」模型怎么来的?

在人脸检测使命中,这些潜变量的示例或许是性别、姿态或发色。

在主动驾驭汽车的情况下,潜变量可以参数化其他驾驭者的或许行为。

因而,它们为咱们处理现实国际的不确定性供给了一种办法。

LeCun高徒超详笔记曝光,Meta世界模型首揭秘!首个「类人」模型怎么来的?

在结构化猜测问题中,咱们假定数据具有一些未知的结构,学习器必须解析这些结构才干进行精确的猜测

终究,潜变量在所谓的结构化猜测问题中十分有用。

LeCun高徒超详笔记曝光,Meta世界模型首揭秘!首个「类人」模型怎么来的?
a.潜变量推断EBM还包括潜变量的最小化(或边缘化)。b. 一个潜变量EBM的例子,在寻找绿色点y和椭圆间隔的问题中,它会从练习点(蓝点)学习

练习根据能量的模型

到目前为止,咱们已经评论了怎么运用EBM,特别是潜变量EBM进行推理。

在本节中,咱们将介绍怎么练习EBM。

LeCun高徒超详笔记曝光,Meta世界模型首揭秘!首个「类人」模型怎么来的?

练习技能的挑选,取决于EBM架构的挑选。

让咱们比较下图中的两种EBM架构。

LeCun高徒超详笔记曝光,Meta世界模型首揭秘!首个「类人」模型怎么来的?
能量模型(EBM)或许会发生能量溃散。(a)规范确实定性猜测或回归架构,其间能量函数Fw(x, y)是x的神经网络猜测与y自身之间的间隔,不简单发生能量溃散。(b)一个或许发生能量溃散的EBM示例

在第一种情况下,能量函数只是数据点y和数据点x的编码器(如NN)输出之间的间隔。

这种架构可以被认为是一个回归模型,并经过简单地最小化练习样本的能量来练习。

然而,关于其他架构,这样的练习或许会导致能量函数的溃散,即给定一个x,能量(energy)或许会变得「平坦」,为 y 的一切值供给根本相同的能量。

例如,图b中的联合嵌入架构,将输入x和y分别编码为

LeCun高徒超详笔记曝光,Meta世界模型首揭秘!首个「类人」模型怎么来的?
LeCun高徒超详笔记曝光,Meta世界模型首揭秘!首个「类人」模型怎么来的?
,方针是找到这样的
LeCun高徒超详笔记曝光,Meta世界模型首揭秘!首个「类人」模型怎么来的?
LeCun高徒超详笔记曝光,Meta世界模型首揭秘!首个「类人」模型怎么来的?
,这样它们的x和y的表明便是接近的。

假如咱们练习模型只是为了最小化编码器输出之间的间隔,那么两个编码器或许会彻底疏忽输入而只发生相同的恒定输出。

比照式办法

为了避免能量溃散,咱们可以采取比照式办法。

x和y是咱们期望降低能量的练习数据点,在下图b中表明为蓝点。

y是一个比照点,在下图b中表明为绿点,咱们需求增加其能量。

LeCun高徒超详笔记曝光,Meta世界模型首揭秘!首个「类人」模型怎么来的?
能量模型(EBM)的练习:(a) 正确的练习办法在最小化练习样本的能量的一起避免能量溃散。(b) 比照式办法经过最小化练习样本的能量一起增加练习集之外样本的能量。(c) 正则化办法约束了低能量区域所占据的空间体积

当最小化

LeCun高徒超详笔记曝光,Meta世界模型首揭秘!首个「类人」模型怎么来的?
时,咱们需求保证练习样本的能量雄安与练习样本和比照样本的能量,至少是边沿m,这取决于y和y之间的间隔。

适当的比照丢失函数需求保证非零鸿沟,以避免能量溃散。

比照丢失函数可以像下面这个方程中的铰链丢失,那样针对特定数据集进行成对核算。

LeCun高徒超详笔记曝光,Meta世界模型首揭秘!首个「类人」模型怎么来的?

比照性办法最中心的问题是怎么生成比照性点,然后最大或许性就可以被解说为比照方性办法的特例。

架构办法和正则化办法

咱们的首要应战在于,挑选怎么约束低能量空间的体积。

一种办法是构建低能量空间体积受限的体系结构。

另一种办法是增加一个正则化项,该项最小化低能量空间的某种度量。

终究,评分匹配(score matching)是一种正则化技能,它最小化数据点周围能量景象的梯度并最大化曲率。

几个能量模型的实例

Hopfield网络

Hopfield网络网络是由John Hopfield在1982年推行的全衔接循环网络,方案如图a所示,能量函数如下:

LeCun高徒超详笔记曝光,Meta世界模型首揭秘!首个「类人」模型怎么来的?

可是因为它会呈现虚假最小值,使得在实践中可用性不强。

玻尔兹曼机

在1983年,由Geoffrey Hinton和Terrence Sejnowski提出了Hopfield网络的扩展,称为玻尔兹曼机。

它引入了被称为躲藏单元的神经元,如下图7(b)所示。

LeCun高徒超详笔记曝光,Meta世界模型首揭秘!首个「类人」模型怎么来的?

它的能量函数及其自由能如下:

LeCun高徒超详笔记曝光,Meta世界模型首揭秘!首个「类人」模型怎么来的?

这个提议对整个机器学习社区来说十分重要,因为它首次引入了躲藏单元的概念,即那些输入和输出不可观测的神经元。

这些躲藏单元也可以理解为模型的潜变量。

去噪自编码器

去噪自编码器(Denoising Autoencoder,AE)是一种比照式EBM。

它是一种经过练习的自编码器,用于康复被损坏输入的洁净版本。

其架构示意图如下图8(a)所示。

LeCun高徒超详笔记曝光,Meta世界模型首揭秘!首个「类人」模型怎么来的?

例如,该自编码器可以经过练习,使数据点在增加随机噪声后康复到其原始位置,如图8(b)所示。

原始数据点来自橙色螺旋线,并经过在其位置上增加一些噪声进行损坏。

然后,将损坏的绿色数据点作为x输入到下图8(a)中的去噪自编码器,一起供给其洁净版本y。

重构差错是损坏点与原始点之间的间隔,当最小化时,去噪自编码器输出的蓝色数据点将回到螺旋线上。

需求注意的是,在同一个问题中,也存在关于去噪自编码器或许无法处理的问题点。例如,自编码器无法重构坐落螺旋线两个分支之间、与它们等间隔的数据点。

这个问题是由数据的折叠结构导致的,然而,在真实国际的数据中很少呈现这种情况。

未来自主体系的构建模块

在上文中,咱们看到了EBM怎么战胜概率模型的局限性之后,而且关于高维数据,或许应该运用正则化办法而不是比照式办法来练习它们。

评论了潜变量模型并解说了它们在结构化猜测问题或融入不确定性方面的用途之后,可以这些优势结合到一种称为联合嵌入猜测架构(JEPA)的架构中。

这便是昨天Meta发布的I-JEPA模型的原理。

联合嵌入猜测架构

联合嵌入猜测架构(JEPA)是一种将嵌入模块与潜变量结合的EBM,如图9所示。

LeCun高徒超详笔记曝光,Meta世界模型首揭秘!首个「类人」模型怎么来的?

作为一个EBM,JEPA学习输入数据x和y之间的依靠联系,可是在学习的内部表明Sx和Sy的层次上进行比较,其间si = Enc(i)。

发生表明sx和sy的两个编码器可以不同,特别是具有不同的架构,而且不共享参数。

因为这一点,输入数据可以具有各种格式(例如视频和音频)。

此外,JEPA自然地处理多模态数据。

首先,x和y的编码器可以具有不变性特性,例如,将各种y映射到相同的Sy。

练习JEPA的终究方针是使表明Sx和Sy可以彼此猜测。

如咱们在第4节中评论的,EBM可以运用比照式办法和正则化办法进行练习,但比照式办法在高维情况下往往效率十分低下。

因而,JEPA可以运用丢失函数进行练习,该丢失函数除了包括猜测差错外,还包括如下图10所示的正则化项。

LeCun高徒超详笔记曝光,Meta世界模型首揭秘!首个「类人」模型怎么来的?

特别是为了避免信息能量溃散,咱们需求保证sx和sy尽或许多地携带关于x和y的信息。

否则,练习进程或许会导致编码器成为常数。

终究,咱们需求最小化或约束潜变量的信息内容,以避免模型只是依靠于其间的信息。

定论

在笔记中,咱们总结了LeCun的首要观念,处理了上边说到的AI现在发展中的局限性。

在第3节中,咱们解说了因为现实国际的数据(如视频或文本)一般具有高维度,根据能量模型的发展方向(EBM)或许是比概率模型更有远景的发展方向。

在第4节中,咱们介绍了对练习EBM的比照和正则化办法,并解说了因为在高维度中生成比照样本的本钱巨大,正则化办法似乎更有远景用于练习未来的EBM。

在第5节中,咱们给出了EBM的历史和现实的实践用例。

终究,第6节会集评论了这个现实:人类决议计划进程根据各种格式和模态的数据,其结构一般需求解码才干进行猜测,而且还包括或许是多余的信息。

这种多模态的妨碍可以经过LeCun提出的一种新架构,在3个维度处理,这种构架被称为联合嵌入猜测架构(JEPAs)。

终究,咱们将要面对的应战是使未来的自主AI可以对各种时间尺度和笼统级别上的国际状况进行猜测。这种多层次的猜测可以经过分层联合嵌入猜测架构(H-JEPA)来完成。

经过正则化办法练习的这种架构,或许是规划可以在不确定性下的猜测国际模型的起点,这将成为未来自主AI发展中获得打破。

参考资料:arxiv.org/pdf/2306.02…