CNN 与 ViT 的完美结合 | TransXNet: 结合部分和大局注意力供给强壮的概括误差和高效感触野

导读

本文依旧从经典的 ViTs 说起,即根据 MHSA 构建远距离建模完成大局感触野的覆盖,但缺乏像 CNNs 般的概括误差才能。因此在泛化才能上相对较弱,需要很多的训练样本和数据增强战略来补偿。

针对这个问题,Swin Transformer 率先引进了移位窗口自注意力来引进概括误差并削减核算成本。但是,作者以为因为其仍然是根据窗口的部分自注意力机制,因此感触野仍是被限制。

为了使 ViTs 具有概括误差,后面大部分作业都挑选构建了混合网络,如 PVT 等,即交融了自注意力和卷积操作。但是,因为标准卷积在这些混合网络中的运用,功能改善有限。这是因为卷积核是输入无关的,不能习惯不同的输入,然后导致了自注意力和卷积之间的表明才能差异。

为了处理上述问题,这篇论文针对性地引进了一种新的混合网络模块,称为Dual Dynamic Token Mixer (D-Mixer),它以一种依赖于输入的办法聚合大局信息部分细节。具体来说,输入特征被分成两部分,别离经过一个大局自注意力模块和一个依赖于输入的深度卷积模块进行处理,然后将两个输出衔接在一起。这种简略的设计能够使网络一起看到大局和部分信息,然后增强了概括误差。论文中的试验证明,这种办法在感触野方面表现超卓,即网络能够看到更广泛的上下文信息。

CNN 与 ViT 的完美结合 | TransXNet: 结合部分和大局注意力供给强壮的概括误差和高效感触野

除了D-Mixer,文中还介绍了一个多标准前馈网络MS-FFN),它在 Token 聚合过程中探究了多标准信息。经过堆叠由 D-Mixer 和 MS-FFN 组成的根本模块,终究构建了一种名为 TransXNet 的通用骨干网络,用于视觉辨认使命。

CNN 与 ViT 的完美结合 | TransXNet: 结合部分和大局注意力供给强壮的概括误差和高效感触野

终究,作者在图画分类、方针检测和语义/实例分割使命进步行了很多试验,结果表明,所提办法在功能上超越了曾经的办法,一起具有更低的核算成本。

办法

TransXNet

CNN 与 ViT 的完美结合 | TransXNet: 结合部分和大局注意力供给强壮的概括误差和高效感触野

如上图所示,同大多数 Backbone 而言,TransXNet网络采用了一个分层的结构,分为四个stage。每个阶段由一个图画块嵌入层和多个依次堆叠的模块组成。第一个图画块嵌入层运用 777 times 7 的卷积层(步长=4),随后是批量归一化(BN),而其余阶段的图画块嵌入层运用 333 times 3 的卷积层(步长=2)和 BN。每个模块包含一个Dynamic Position Encoding (DPE)层,一个Dual Dynamic Token Mixer (D-Mixer),以及一个Multiscale Feed-forward Network (MS-FFN)

Dual Dynamic Token Mixer (D-Mixer)

为了进步Transformer模型的泛化才能并引进概括误差,曾经的办法已经测验结合卷积和自注意力来构建混合模型。但是,这些办法中的静态卷积核限制了 Transformer 的输入依赖性。因此,作者提出了一个轻量级的 Token Mixer,称为Dual Dynamic Token Mixer (D-Mixer),它能够动态地使用大局和部分信息,一起注入大的感触野和强壮的概括误差,而不献身输入依赖性。

D-Mixer的作业流程如下图所示。关于一个特征图XX,首先将其沿通道维度均匀分为两个子特征图 X1X_{1}X2X_{2}。然后,X1X_{1}X2X_{2} 别离经过一个大局自注意力模块(OSRA)和一个动态深度卷积模块(IDConv),生成相应的特征图然后将它们沿通道维度衔接在一起,生成输出特征图 X′X^{‘}。终究,作者运用 Squeezed Token Enhancer(STE) 来进行有用的部分token聚合。

CNN 与 ViT 的完美结合 | TransXNet: 结合部分和大局注意力供给强壮的概括误差和高效感触野

能够看出,D-Mixer的首要特点是,经过堆叠多个D-MixerOSRAIDConv生成的动态特征聚合权重一起考虑了大局和部分信息,然后增强了模型的表明学习才能。

值得一提的是,D-Mixer的其间一个关键组成部分是”Input-dependent Depthwise Convolution”(IDConv),它用于在动态输入依赖办法下注入概括误差并执行部分特征聚合。这个 IDConv 经过自习惯平均池化来聚合空间上下文,然后经过两个 111 times 1 的卷积层发生注意力求,终究生成输入依赖的深度卷积核。与其他动态卷积办法相比,IDConv 具有更高的动态部分特征编码才能,并且在核算开支上较低。

Overlapping Spatial Reduction Attention (OSRA)

下面简略为大家整理下 OSRA 模块的核算流程:

  • 首先,输入特征图 XX 经过 OSROSR 模块进行处理,发生输出特征图 YY
  • 然后,经过线性改换将 XX 映射为查询(QQ),并将 YY 映射为键(KK)和值(VV)。
  • 接下来,经过 Split 操作将线性改换后的 YY 分成多个部分。
  • 终究,经过部分细化模块(LR)和一个相对位置偏置矩阵(B)进行一些后处理。

这个核算流程能够帮助模型更好地捕捉图画中的空间联系,其间引进了 OSR 来改善对图画边界邻近空间结构的建模,这有助于进步模型在图画辨认使命中的功能。

Squeezed Token Enhancer (STE)

STE 首要用于增强 token 之间的交互,一起下降核算成本。在曾经的办法中,为了完成 token 之间的交互,通常会运用 111 times 1 卷积层,但这会导致相当大的核算开支。为了下降核算成本而不影响功能,作者引进了该模块。

STE模块的核算流程如下所示:

  • 首先,输入特征图 XX 经过 333 times 3 深度卷积(DWConv3x3)进行处理,以增强 token 之间的部分联系。
  • 然后,运用通道压缩和扩展的 111 times 1 卷积层,下降核算成本。
  • 终究,经过残差衔接,将上述两个部分相加,以保存表明才能。

Multi-scale Feed-forward Network (MS-FFN)

CNN 与 ViT 的完美结合 | TransXNet: 结合部分和大局注意力供给强壮的概括误差和高效感触野

MS-FFN 首要用于在模型的前馈神经网络(Feed-forward Network)中进行多标准的特征处理。通常,前馈神经网络(FFN)用于对输入特征进行特征提取和改换,以进步模型的表明才能。但是,传统的 FFN 可能会受限于单一标准的特征提取,难以充分使用多标准的信息。

为了战胜这个问题,本文引进了该模块。与传统的FFN不同,其采用了多标准的处理办法。具体来说,MS-FFN 模块运用了四个并行的深度可分离卷积(depthwise convolution),每个卷积核的标准不同,别离是 333 times 3555 times 5777 times 7。这四个卷积核别离处理输入特征的四分之一通道。这意味着每个卷积核专门负责处理输入特征的一部分通道,以有用地捕获多标准的信息。此外,还有一个 111 times 1 深度卷积核,用于学习通道方面的缩放因子。这个1×1深度卷积核的作用是对通道进行加权缩放,以更好地交融多标准信息。

Architecture Variants

为了操控不同核算成本,以习惯不同的运用需求,文本办法相同经过缩放因子设计了几个不同的变种,包含TransXNet-T(Tiny)TransXNet-S(Small)TransXNet-B(Base)。为了调整不同变种的核算成本,作者运用了两个可调整的超参数,除了通道数和模块数量之外。这两个超参数如下:

CNN 与 ViT 的完美结合 | TransXNet: 结合部分和大局注意力供给强壮的概括误差和高效感触野

  • Attention Groups(注意力组数):这个超参数操控了IDConv模块的核算成本。在Tiny版别中,注意力组数固定为2,以确保合理的核算成本。而在更深层的SmallBase模型中,作者逐步添加了注意力组数,以进步 IDConv 的灵活性。这类似于 MHSA 模块的头数在模型变得更深时逐步添加的办法。
  • FFN(扩展比率): 曾经的作业通常将阶段1和阶段2中的 FFN 扩展比率设置为8。但因为这两个阶段的特征图通常具有较大的分辨率,这导致了高的 FLOPs。因此,本文逐步添加了不同架构变种中的 FFN 扩展比率。

试验

CNN 与 ViT 的完美结合 | TransXNet: 结合部分和大局注意力供给强壮的概括误差和高效感触野

CNN 与 ViT 的完美结合 | TransXNet: 结合部分和大局注意力供给强壮的概括误差和高效感触野

CNN 与 ViT 的完美结合 | TransXNet: 结合部分和大局注意力供给强壮的概括误差和高效感触野

总结

在这项作业中,作者提出了一种高效的D-Mixer,充分使用了OSRAIDConv供给的混合特征提取。经过将根据D-Mixer的块堆叠到深度网络中,IDConv中的卷积核和OSRA中的注意力矩阵都是动态生成的,运用了前几个块中搜集的部分和大局信息,然后增强了网络的表明才能,融入了强壮的概括误差和扩展的有用感触野。此外,作者还引进了MS-FFN,用于在前馈网络中进行多标准的Token聚合。经过交替运用D-MixerMS-FFN,作者构建了一种新式的混合CNN-Transformer网络,称为TransXNet,该网络在各种视觉使命上表现出了SOTA的功能。总的来说,这项作业提出了一种新颖的网络架构,经过有用使用不同的特征提取办法,进步了网络的表明才能,一起在前馈网络中引进多标准的特征聚合,为各种视觉使命供给了超卓的功能。