新智元报导
编辑:桃子 拉燕
【新智元导读】Meta在CV范畴又放了个大的!自监督+无需微调,计算机视觉又要不存在了?
继「切割全部」后,Meta再发DINOv2。
这还是小扎亲自官宣,Meta在CV范畴又一重量级开源项目。
小扎也是高调标明,Meta一向致力于开源各种AI工具,而今日发布的DINOv2更是SOTA级别的模型。能在深度估量、语义切割、图画相似性比较等方面完成自监督练习。
小扎标明,用这个模型能够凭借卫星图画生成不同大洲的森林高度。而在未来,还能够帮助医学成像、粮食产量等方面。
当然,最终小扎还不忘了自己的主打——元世界。他认为,DINOv2能够极大地加持元世界的建设,让用户在元世界中的沉浸体会更超卓。
网友高声大呼,「计算机视觉再一次不存在了!」
作用演示
Meta在官网上放出了深度估量、语义切割和实例检索的案例。
深度估量:
对于不熟悉计算机视觉的朋友来讲,深度估量(Depth Estimation)可能是一个比较陌生的词汇。但其实,只需理解了其应用场景就能理解是什么意思了。
简单来说,对于2D相片,由于图画是一个平面,所以在3D重建时,相片中每一个点间隔拍照源的间隔就至关重要。
这便是深度估量的意义。
右侧的图片中,相同的颜色代表间隔拍照点间隔相同,颜色越浅间隔越近。这样子整个图片的纵深就出来了。
再来看几组比如:
语义切割:
语义切割的含义比较简单。从字面上看,语义这个词在不同的语境下含义也不同。比如说,在语音辨认范畴,语义指的便是语音内容。而在图画范畴,指的便是图片内容。
切割便是把一张图片中不同的部分用颜色标明,这样就清楚各部分之间的划分了。
有点像小时候玩过的涂鸦画本,在空白的轮廓图上给不同的部分上色。
当然还是有区别的,画本中同一部分我们也能够用不同的颜色来装饰。
如上图中,桥是一种颜色,河水是一种颜色,草地是一种颜色,远处的树又是一种颜色。
更多示例:
实例检索:
这个就更好理解了。上传图片到模型中,就能够从有茫茫多图片的库中找到类似的图片。
上图中的埃菲尔铁塔便是输入的图片,模型随后检索出了很多同体裁的图片,风格各异。
DINOv2
论文地址:arxiv.org/pdf/2304.07…
看完了SOTA级别的演示,接下来我们来看一看藏在背面的技能打破。
要知道,自然言语处理中对很多数据进行模型预练习的打破,为计算机视觉中类似的根底模型拓荒了道路。
这些模型能够通过发生多种用处的视觉特征,大大简化任何系统中的图画运用,无需微调就能在不同的图画散布和使命中发挥作用的特征。
这项作业标明,现有的预练习方法,特别是自监督方法,如果在来自不同来源的满足的数据上进行练习,就能够发生这样的作用。
Meta的研究人员从头审视了现有的方法,并结合不同的技能,在数据和模型的巨细上扩展我们的预练习。
大多数技能贡献的是加快和安稳规模化的练习。在数据方面,Meta提出了一个主动管道,意图是建立一个专门的、多样化的、通过收拾的图画数据集,而不是像自监督文献中通常所做的那样,建立未经收拾的数据。
而在模型方面,研究人员用1B的参数练习了一个ViT模型,并将其提炼成一系列较小的模型,这些模型在大多数图画和像素级别上超过了现有的OpenCLIP在图画和像素层面上的基准。
与学习使命无关的预练习表征现已成为自然言语处理(NLP)的标准。人们能够照搬这些特征,不必进行微调,并在下流使命中获得了明显优于特定使命模型发生的性能。
这种成功被很多原始文本预练习所推动,如言语建模或单词向量,而不需求监督。
在NLP的这种范式改变之后,研究人员估计,计算机视觉中会出现类似的根底模型。这些模型能发生在任何使命中都能发挥作用的视觉特征。在图画层面,有图画分类,而在像素层面,则有切割(如上例)。
对这些根底模型的大多数努力都集中在文本辅导的预练习上,即运用一种文本监督的方式来辅导特征练习。这种方式的文本辅导的预练习约束了能够保留的关于有关图画的信息,由于标题只包括图画中的表层信息,而复杂的像素级信息可能不会表现。
此外,这些图画编码器需求一一对应的文本&图画语料库。文本辅导的预练习的一个替代方法,是自我监督学习,其特征是独自从图画中学习。这些方法在概念上更接近于言语建模等使命,并且能够在图画和像素层面上捕捉信息。
但是,自我监督学习的大部分进展都是在小型策划数据集ImageNet1k上进行预练习的。一些关于将这些方法扩展到ImageNet-1k之外的努力现已被尝试过了,但他们的特点是,专心于未经收拾的数据集,导致特征的质量大幅下降。
这是由于缺少对数据质量和多样性的控制。
Meta的研究人员关注的问题是,如果在很多的策划过的数据上进行预练习自我监督学习,是否有潜力学习一切的视觉特征。他们从头审视了现有的在图画和斑块层面学习特征的辨别性自监督方法,如iBOT,Meta的研究人员在更大的数据集下从头考虑了iBOT的一些选择。
Meta的大部分技能贡献都集中在针对模型和数据规模扩展时的安稳和加快判别性自我监督学习等方面。这些改善使新方法比类似的辨别性自我监督方法快2倍左右,所需的内存少3倍,这样就能运用更大的批次规模进行更长时间的练习。
关于预练习数据,研究人员建立了一个模型来过滤和从头平衡包括很多未处理的图画的数据集。灵感来自于NLP中运用的方法,运用了数据相似性而非外部元数据,且不需求手动注释。
在这项作业中,一个简单的聚类方法能超卓地解决这个问题。
Meta的研究人员收集了一个由1.42亿张图片组成的多样化的语料库来验证此方法。最终供给了各种预练习的视觉模型,称为DINOv2,也便是今日我们介绍的主角。
Meta也是发布了一切的模型和代码,以便在任何数据上都能够从头练习DINOv2。
研究人员在各类计算机视觉的基准上验证DINOv2的才能,并在图画和像素层面上,还对其进行了扩展,如下图。
网友:这才是「Open」AI
DINOv2发布后,网友们也是一致好评。
「计算机视觉根底模型正在获得令人难以置信的快速进展。类似于在大规模数据和模型上的自我监督学习所推动的LLMs。感谢Meta开源DINOv2和SAM–对于~~90%的普通范畴使命来说,这些模型的才能越来越强,基本上不需求微调。」
「SAM+DINO,在农业方面上应用太强了。」
「Meta 才是真正的「Open」AI 公司 !」
参考资料:
www.maginative.com/article/met…
github.com/facebookres…