夕小瑶科技说 分享
来源 | 新智元

LeCun的国际模型总算来了,可谓是人心所向。既然大模型已经学会了了解国际、像人相同推理,是不是AGI也不远了?

长久以来,LeCun理想中的AI,一直是通往人类水平的AI,为此他提出了「国际模型」的设想。

而最近,LeCun在揭露演讲中,再次批评了GPT大模型:依据概率生成自回归的大模型,底子无法破除错觉难题。甚至直接发出断言:GPT模型活不过5年。

LeCun世界模型出场!Meta震撼发布首个「类人」模型,理解世界后补全半张图,自监督学习众望所归

今日,LeCun总算离自己的愿望又近了一步! Meta震撼发布了一个「类人」的人工智能模型 I-JEPA,它能够比现有模型更精确地分析和完结缺失的图画。

LeCun世界模型出场!Meta震撼发布首个「类人」模型,理解世界后补全半张图,自监督学习众望所归

论文地址:
arxiv.org/abs/2301.08…

划要点:I-JEPA填充缺失片段时,用的便是有关国际的布景常识!而不是像其他模型那样,仅仅经过查看邻近的像素。

间隔提出「国际模型」概念一年多,眼看着LeCun就要完结自己的星斗大海了。

今日,练习代码和模型已经开源。论文将于下周在CVPR 2023宣布。

LeCun的国际模型来了

即使是现在最先进的AI体系,也始终无法打破一些要害限制。

为了打破这层枷锁,Meta的首席AI科学家Yann LeCun提出了一种新的架构。

LeCun世界模型出场!Meta震撼发布首个「类人」模型,理解世界后补全半张图,自监督学习众望所归

他的愿景是,创造出一个机器,让它能够学习国际如何运作的内部模型,这样它就能够更快速地学习,为完结杂乱使命做出方案,而且随时应对不熟悉的新情况。

今日Meta推出的图画联合嵌入猜测架构I-JEPA模型,是史上第一个根据LeCun国际模型愿景要害部分的AI模型。

I-JEPA便是经过创立外部国际的内部模型来学习。在补全图画的过程中,它比较的是图画的抽象表征,而不是比较像素自身。

在多个核算机视觉使命上,I-JEPA都体现出了强壮的功能,而且比其他广泛运用的CV模型核算功率高得多。

LeCun世界模型出场!Meta震撼发布首个「类人」模型,理解世界后补全半张图,自监督学习众望所归

I-JEPA学习的表明方式能够用于许多不同的应用,而无需进行大量的微调。

比如,研究者在72小时内运用16个A100 GPU,就练习出了一个632M参数的视觉Transformer模型。

在ImageNet上的low-shot分类使命上,它到达了SOTA,每个类降低到12个符号示例。

而其他办法一般需求2到10倍的GPU小时,而且运用相同数量的数据进行练习时,错误率也更高。

经过自监督学习获取常识

一般,人类只需经过被迫调查,就能学习到有关国际的大量布景常识。

依据估测,似乎这种常识信息正是完结智能行为的要害,比如获取新概念、基础和方案的有效样本。

LeCun世界模型出场!Meta震撼发布首个「类人」模型,理解世界后补全半张图,自监督学习众望所归

Meta在I-JEPA(以及更普遍的联合嵌入猜测架构JEPA模型)上的作业,正是根据这样一个现实。

研究者测验的是,规划出一种学习算法,捕捉关于国际的常识布景常识,然后将其编码为算法能够访问的数字表征。

为了到达足够的功率,体系有必要以自监督的方式学习这些表征——也便是说,直接从图画或声音等未符号的数据中学习,而不是从手动组合的符号数据集中学习。

在更高的层级上,JEPA旨在依据同一输入(图画或文本)的其他部分的表征,来猜测输入的部分表征。

由于它不涉及将图画的多个视图/增强的表征折叠到一个点上,所以JEPA有很大希望能够防止在广泛运用的办法(即根据不变性的预练习)中出现的偏见和问题。

LeCun世界模型出场!Meta震撼发布首个「类人」模型,理解世界后补全半张图,自监督学习众望所归

一起,经过在高度抽象的水平上猜测表征,而不是直接猜测像素值,JEPA有望能够直接学习有用的表征,一起防止生成办法的局限性,正是根据这个原因,最近才发生了如此多令人兴奋的大语言模型。

相比之下,一般的生成式模型是经过移除或扭曲输入模型的部分内容来学习的。

例如,抹去相片的一部分,或者隐藏文本段落中的某些字,然后试着猜测被破坏或丢掉的像素或单词。

但这种办法的一个明显缺陷是,尽管国际自身是不行猜测的,模型却企图填补每一块缺失的信息。

LeCun世界模型出场!Meta震撼发布首个「类人」模型,理解世界后补全半张图,自监督学习众望所归

因而,这种办法或许会犯人永久不会犯的错误,由于它们会过于重视不相干的细节,而不是捕捉更高档的可猜测的概念。

一个众所周知的例子便是,生成式模型很难生成正确的人手。

在自监督学习的通用架构中,体系会学习捕捉不同输入之间的关系。

它的方针是,将高能量分配给不兼容的输入,将低能量分配给兼容的输入。

LeCun世界模型出场!Meta震撼发布首个「类人」模型,理解世界后补全半张图,自监督学习众望所归

这三种架构的区别是——

(a) 联合嵌入(不变)架构会学习为兼容的输入x、y输出相似的嵌入,为不兼容的输入输出不相似的嵌入。

(b) 生成式架构会学习直接从兼容的信号x重建信号y,运用以附加变量z(或许是潜变量)为条件的解码器网络,以促进重建。

(c) 联合嵌入猜测架构学习从兼容信号x中猜测信号y的嵌入,运用以附加变量z(或许是潜变量)为条件的猜测网络,来促进猜测。

联合嵌入猜测架构

I-JEPA背后的原理是经过一种更类似于人类了解的抽象表征来猜测缺失的信息。

为了引导I-JEPA发生语义表征,其间一个核心规划便是多块掩码战略。

具体而言,团队证明了猜测包括语义信息的大块的重要性。这些大块具有足够大的规划,能够涵盖重要的语义特征。

LeCun世界模型出场!Meta震撼发布首个「类人」模型,理解世界后补全半张图,自监督学习众望所归

这种战略的优势在于,它能够减少不必要的细节,并供给更高层次的语义了解。

经过重视大块的语义信息,模型能够更好地抓住图画或文本中的重要概念,然后完结更强壮的猜测才干。

根据图画的联合嵌入猜测架构(I-JEPA)运用单个上下文块来猜测来自同一图画的表征 其间,上下文编码器是一个视觉Transformer(ViT),它只处理可见的上下文patch。

猜测器是一个窄的ViT,它接收上下文编码器的输出,并依据方针的方位token,来猜测方针块的表征。

LeCun世界模型出场!Meta震撼发布首个「类人」模型,理解世界后补全半张图,自监督学习众望所归

方针表征对应于方针编码器的输出,其权重在每次迭代时,经过对上下文编码器权重的指数移动均匀进行更新。

在I-JEPA中,猜测器能够被视为一个原始(且受限)的国际模型,它能够利用已知的上下文信息来推断未知区域的内容。

这种才干使得模型能够对静态图画进行推理,然后树立一种对图画中的空间不确定性的了解。 与仅重视像素级细节的办法不同,I-JEPA能够猜测未见区域的高层次语义信息,然后更好地捕捉图画的语义内容。

LeCun世界模型出场!Meta震撼发布首个「类人」模型,理解世界后补全半张图,自监督学习众望所归

关于每个图画,蓝色框之外的部分被编码并作为上下文供给给猜测器。而猜测器则输出了代表蓝色框内预期内容的表征。

为了了解模型捕捉的内容,团队练习了一个随机解码器,将I-JEPA猜测的表征映射回像素空间,然后展现了在蓝色框内进行猜测时模型的输出。

明显,猜测器能够识别出应该填充部分的语义信息(狗头顶部、鸟的腿、狼的腿、建筑物的另一侧)。

LeCun世界模型出场!Meta震撼发布首个「类人」模型,理解世界后补全半张图,自监督学习众望所归

简而言之,I-JEPA能够学习方针部分的高档表征,而且也不会丢掉它们在图画中的局部方位信息。

更高的功率,更强的功能

在预练习上,I-JEPA的核算愈加高效。

首要,它不需求应用愈加核算密布的数据增强来生成多个视图,因此不会带来额定的开销。

其次,其间的方针编码器只需对图画的一个视图进行处理,而上下文编码器也只需对上下文块进行处理。

试验证明,I-JEPA能够在不运用人工视图增强的情况下,学习到强壮的现成语义表征。

此外,在ImageNet-1K线性探测和半监督评价中,I-JEPA的体现也优于像素重建和token重建办法。

LeCun世界模型出场!Meta震撼发布首个「类人」模型,理解世界后补全半张图,自监督学习众望所归

在语义使命上,I-JEPA与之前依赖于人工数据进行增强的预练习办法相比,体现愈加超卓。

与这些办法相比,I-JEPA在初级视觉使命(如物体计数和深度猜测)上完结了更好的功能。

经过运用更简单、更灵敏的归纳偏置模型,I-JEPA能够用在更广泛的使命上。

LeCun世界模型出场!Meta震撼发布首个「类人」模型,理解世界后补全半张图,自监督学习众望所归

AI向人类智能更进了一步

I-JEPA展现了架构在学习现成图画表征方面的潜力,而且还不需经过人工制作的常识作为额定的辅助。

推动JEPA以从更丰厚的模态中学习更通用的国际模型,将会是相同特别有意义的作业。

例如,从短的上下文中,对视频进行长程的空间和时间猜测,并将这些猜测根据音频或文本提示进行条件化。

LeCun世界模型出场!Meta震撼发布首个「类人」模型,理解世界后补全半张图,自监督学习众望所归

团队表明,期待着将JEPA办法扩展到其他领域,如图画-文本配对数据和视频数据。

未来,JEPA模型会在视频了解等使命中或许具有令人兴奋的应用。而这也将是应用和扩展自监督办法来学习国际模型的重要一步。

预练习模型

LeCun世界模型出场!Meta震撼发布首个「类人」模型,理解世界后补全半张图,自监督学习众望所归

单GPU练习

在单GPU设置中,完结从main.py开端。

例如,要运用装备configs/in1k_vith14_ep300.yaml在本地核算机上的GPU 0、1和2上运行I-JEPA预练习,请输入以下命令:

python main.py \
  --fname configs/in1k_vith14_ep300.yaml \
  --devices cuda:0 cuda:1 cuda:2

留意:ViT-H/14装备应在16个A100 80G显卡上运行,有效批巨细为2048,才干复现结果。

多GPU练习

在多GPU设置中,完结从main_distributed.py开端,除了解析装备文件外,还答应指定有关分布式练习的具体信息。

关于分布式练习,需求运用流行的开源submitit工具,并供给SLURM集群的示例。

例如,要运用configs/in1k_vith14_ep300.yaml中指定的预练习试验装备在16个A100 80G显卡上进行预练习,请输入以下命令:

python main_distributed.py \
  --fname configs/in1k_vith14_ep300.yaml \
  --folder $path_to_save_submitit_logs \
  --partition $slurm_partition \
  --nodes 2 --tasks-per-node 8 \
  --time 1000

网友评论

关于LeCun领衔的这项新作业,网友们纷纷表明赞赏。

真是开创性的作业,吹爆了。自回归模型的继任者就在这儿!

LeCun世界模型出场!Meta震撼发布首个「类人」模型,理解世界后补全半张图,自监督学习众望所归

我信任,联合嵌入架构是人工智能的未来,而不是生成式的。但我便是很好奇,为什么我们不进一步研究多模态(如ImageBind,而不仅仅是文本-图画对),而且用像编码器这样的感知器来代替VIT编码器?

LeCun世界模型出场!Meta震撼发布首个「类人」模型,理解世界后补全半张图,自监督学习众望所归

很简练的作业。在我的了解中,它类似于掩蔽自动编码器,但在潜在空间中界说时会丢掉功能,而不是输入/像素空间。不过,假如要具体看懂,我还需求更多细节。

LeCun世界模型出场!Meta震撼发布首个「类人」模型,理解世界后补全半张图,自监督学习众望所归

我的大脑只能看懂论文的10%,但假如I-JEPA真的能创立图3中的方针图画,那就太神奇了,最重要的是:它和AI生成的MMORPG是相关的!

LeCun世界模型出场!Meta震撼发布首个「类人」模型,理解世界后补全半张图,自监督学习众望所归

这个项目行将开源,网友也对Meta关于开源社区的贡献表明赞赏。

LeCun世界模型出场!Meta震撼发布首个「类人」模型,理解世界后补全半张图,自监督学习众望所归

参考资料

[1]https://ai.facebook.com/blog/yann-lecun-ai-model-i-jepa/