导读

论文:《Improving Pixel-based MIM by Reducing Wasted Modeling Capability》

问题背景Masked Image Modeling, MIM 是一种有用的自监督学习结构,但现有的依据像素的 MIM 办法倾向于过火注重高频细节。如此一来便会浪费模型的才干,不能充分捕获低频语义信息。

首要作业:依据这个问题,本文提出了一种新办法,通过显式运用浅层的初级特征来辅佐像素重建。这一规划被集成到 MAE 中,降低了 Pixel-based MIM 在建模才干上的“资源浪费”,一同改进了收敛性,并在各种下贱任务上获得了不错的改进。特别是在较小的模型上,这种办法可以明显前进功用。

动机

自监督学习在核算机视觉方面获得了明显发展。其中,MIM 范式通过重建输入图像的遮挡部分来捕捉其语义。它具有简略的操练流程和高下贱任务功用。然而,像这些依据 pixel 的根底办法,如 MAE,虽然有简略的预操练流程和最小的核算开支,但是它们一般倾向于捕获高频细节,浪费了可以更好地用于捕获低频语义的建模才干。作者的方针是减少这种建模才干的浪费,以改进下贱视觉任务的学习标明质量。为此,他们规划了两个试点实验,并提出了对应的解决办法 MFF:

ICCV 2023 | Pixel-based MIM: 简略高效的多级特征融合自监督办法

融合浅层:此处不只运用输出层进行像素重建,还结束了一种权重均匀战略来融合一切从前层。这些权重在预操练过程中动态更新,提醒了每层对重建任务的重要性。

频率分析:这儿分析了每层特征的频率响应,发现浅层包含更多的高频成分,与初级细节(如纹理)有关。

多级特征融合:通过显式地将浅层的初级特征合并到输出层中,减轻了模型过火注重这些初级细节的担负,使其可以更好地捕捉高档语义。

办法

如上所述,本文提出了一种用于像素级遮挡图像建模(MIM)的新办法,该办法特别聚集于多层特征融合(Multi-level Feature Fusion,MFF)。下面,我们将遵从文章头绪具体介绍下具体办法。

ICCV 2023 | Pixel-based MIM: 简略高效的多级特征融合自监督办法

像素级 MIM 简介

像素级 MIM 旨在猜想原始或后处理图像的原始像素值。该过程可以视为去噪自编码器,并遵从简略的流程。关于被遮挡的图像,可以将可见符号和/或遮挡符号送入编码器;假如仅运用可见符号,那么遮挡符号和编码器输出的潜在特征都必须送入解码器。

多层特征融合

本文提出了一种多层特征融合机制,并将其整合到现有的像素级 MIM 办法中。以下是具体过程:

  • 输入和编码:给定图像 II,通过编码器 EE 获取潜在标明 XX

  • 选择融合层:选择编码器的深度层 NN,并确定要融合的层数 MM(在本文中,M = 5)。作者首要通过消融研讨选择浅层,并通过实验选择了包含毕竟一层在内的6层进行融合。

  • 投影层:在融合前,通过投影层 PiP_{i} 对额定的 MM 层进行调整,以便在不同层次之间对齐特征空间。

  • 融合层:引进融合层 FF 来融合多层特征 XX 。一同将对应输出输入解码器进行像素重建。

投影和融合层的实例化

投影层一般可以设置成线性或非线性的,不过依据文章的实验标明,简略的线性层在结构内就足够有用。

而关于融合层来说,其意图是从浅层特征中收集初级信息。文章评价了两种常用的融合办法:加权均匀池化和依据自注意力的融合。加权均匀池化战略通过动态更新权重来结束,自注意力方规律运用现有的Transformer层。实验作用标明,加权均匀池化与自注意力相当,但更简略且核算功率更高。

总的来说,这种办法通过集成浅层和深层的特征,弥补了像素级 MIM 倾向于捕捉高频细节而疏忽低频语义信息的问题,然后前进了模型的功用。

实验

ICCV 2023 | Pixel-based MIM: 简略高效的多级特征融合自监督办法

从实验作用可以看出,结合 MFF 战略的 MIM 模型大都可以有用涨点。

ICCV 2023 | Pixel-based MIM: 简略高效的多级特征融合自监督办法

消融实验的作用分析了三个要害方面:浅层的重要性、用于融合的层数,以及投影层和融合战略的影响。

浅层是否重要?

实验考虑了将输出层与浅层或深层融合的作用。作用标明,与深层融合只带来了细小的改进,而将初级特征直接从浅层融合到输出层则明显前进了功用。这是因为这样做使模型可以更专注于语义信息。因而,本文办法毕竟决定运用浅层(即第一层)进行多层特征融合。

用于融合的层数多少适宜?

除了输出层和前面选择的浅层外,合理的做法是考虑运用中间层进行融合,因为它们或许包含有助于重建任务的额定初级特征或高档意义。实验尝试了在浅层和输出层之间均匀选择1、2和5层。作用闪现,引进更多层会带来持续的改进,因为它们或许包含有助于模型结束重建任务的一同特征,例如纹理或色彩。然而,当融合一切这些层时,一切下贱任务的功用都会下降,这或许是因为这些层之间的冗余导致优化难度添加。

投影层和融合战略是否重要?

实验还查询了投影层对毕竟作用的影响,发现简略的线性投影层足以获得令人满意的作用,与不运用投影层或非线性投影层比较。线性投影层有助于减轻不同层之间的范畴或散布距离,但非线性投影层则引进了核算开支,并更难以优化,然后结束了次优功用。至于融合战略,作者发现加权均匀池化战略最有用,与attn比较,这种战略更简略,核算开支更小。


让我们简略总结下,消融实验的作用提醒了浅层的重要性,选择恰当数量的层数以及采用线性投影和加权均匀池化战略的重要性。这些发现有助于前进多层特征融合在像素级 MIM 办法中的功用,并供应了结束这些改进的具体指导方针。通过对浅层、中间层的混合和适宜的投影与融合战略,该办法提高了图像重建任务的精度,为未来的研讨供应了有利的参阅。

总结

在这项研讨中,研讨人员体系地探究了等向性架构(如ViT)中多层特征融合在遮挡图像建模中的应用。通过一项初步实验,提醒了浅层初级特征在像素重建任务中的重要性,并在 MAE 和 PixMIM 两种像素级 MIM 办法中应用了简略直观的多层特征融合战略,结束了明显的功用提高。消融实验进一步优化了层数选择和投影融合战略,并发现了该融合可以克制高频信息并弱化丢掉。这项作业为像素级 MIM 办法供应了新的视角,推动了这种简略高效的自监督学习范式的发展。

写在毕竟

欢迎对自监督学习相关研讨感兴趣的童鞋扫描屏幕下方二维码或许直接查找微信号 cv_huber 添加小编老友,补白:学校/公司-研讨方向-昵称,与更多小伙伴一同交流学习!