顶刊TPAMI2023|港中文提出基于自适应视角的APD知识蒸馏框架,有效提高现实场景语义分割性能

论文标题:Adaptive Perspective Distillation for Semantic Segmentation
论文链接:ieeexplore.ieee.org/document/97…
作者单位:香港中文大学(Jiaya Jia,IEEE Fellow)、牛津大学

欢迎重视@CV顶刊顶会 微信公众号,认真且严肃的计算机视觉论文前沿报导~

顶刊TPAMI2023|港中文提出基于自适应视角的APD知识蒸馏框架,有效提高现实场景语义分割性能

强大的语义切割模型需求预练习的backbone才干完结高效的功能,因此很难适应需求有效实时算法的实际应用程序。常识蒸馏技能经过让较小的模型(学生)发生与较大模型(教师)类似的像素级猜测来解决这个问题。但是,分类器能够被视为模型对编码特征进行感知并发生一种特定视角,这种视角由一切练习样本同享,契合通用的特征分布。但是这种对整个分布的泛化都良好的情况或许会给一些单个样本带来较差的学习作用,同享的通用视角往往会疏忽每个样本中存在的细节,然后导致常识蒸馏的退化。这能够看做是传统蒸馏学习与语义切割相结合的缺点地点。来自香港中文大学和牛津大学的研讨者们针对此问题,提出了一种自适应视角蒸馏办法(Adaptive Perspective Distillation,APD),并发表在人工智能范畴顶级期刊(IEEE Transactions on Pattern Analysis and Machine Intelligence,TPAMI)上。APD为每个单独的练习样本创建自适应部分视角,能够专门从每个练习样本中提取详细的上下文信息,以从教师模型中挖掘更多的细节,然后在学生模型上抵达更好的常识蒸馏成果。APD对教师和学生模型都没有结构束缚,因此能够很好地泛化到不同的语义切割模型中。作者在Cityscapes、ADE20K和PASCAL-Context等规范基线上进行的大量试验证明了APD的有效性。此外,APD还能够在方针检测和实例切割等方面为模型带来功能增益

1.引言

在本文中,作者将深度网络对图画进行感知编码和解码的进程比作为光的透视进程。光线从场景出发穿过平面抵达调查者眼睛被定为透视进程,深度网络进行语义切割时也能够类比于此,我们能够将最终的分类器视为模型的一种透视方式。换句话说,切割模型的推理能够被视为透视(分类器)投射编码的高档语义信息以发生调查者的调查(猜测)的进程,如下图所示。与学生模型比较,教师一般有更好的视角,因为大特征编码器能够发生高质量的特征来学习好的视角。

顶刊TPAMI2023|港中文提出基于自适应视角的APD知识蒸馏框架,有效提高现实场景语义分割性能

在蒸馏学习阶段,教师模型的特征编码器和视角是固定的。鉴于教师模型已经在整个练习集上接受了充沛的练习,因此其固定的“普适视角”能够泛化到一切测试样本来取得高质量的评价成果,但是,高泛化才能或许会导致较差的模型规范性,因为即使是相同的对象也或许在不同的练习样本中以不同的共现信息呈现,如果仅运用固定通用视角关于特别的样本的学习才能较差。因此本文作者提出了一种依据语义切割视角视角的新常识蒸馏办法APD。APD使模型能够为每个输入图画构成自适应视角,即不同的图画依据其上下文内容由不同的视角处理。因为教师模型能够代表更好的遍及视角,作者也调整了教师和学生的适应性视角,这样使学生能够在教师的指导下构成更好的适应性视角,抵达快速蒸馏的意图。

2.本文办法

关于语义切割模型,能够分解为两个部分:(1)特征编码器 G\mathcal{G} 和(2)分类器 C\mathcal{C}。在蒸馏进程中,G\mathcal{G}C\mathcal{C} 都固定在教师模型中,教师模型的分类器 Ct\mathcal{C_t}Gt\mathcal{G_t} 中提取特征 ftf_t 来作为蒸馏丢失Lkd\mathcal{L_{kd}}的soft label。上文说到 Ct\mathcal{C_t} 对整个数据集都适用,其为蒸馏学习提供了一个固定的通用视角。

顶刊TPAMI2023|港中文提出基于自适应视角的APD知识蒸馏框架,有效提高现实场景语义分割性能

上图为APD办法的全体结构,作者经过构成个别自适应视角 At\mathcal{A_t} 来细心研讨每个练习样本,这些视角由从编码特征中取得的语义原型(即个别语义类的代表向量)组成,它作为另一个辅佐使命,为提炼常识提供部分视角。此外,辅佐视角 pa,tp_{a,t} 由自适应视角 At\mathcal{A_t} 和编码特征 ftf_t 生成,用于将常识从教师转移到学生。学生特征编码器 Gs\mathcal{G_s} 经过仿照 Gt\mathcal{G_t} 以发生类似的自适应视角 As\mathcal{A_s},以及从 As\mathcal{A_s} 取得的辅佐视角成果 pa,sp_{a,s}

2.1 自适应视角生成

为了对练习样本进行自适应视角生成,作者首先设置两个映射层,由多层感知机构成,能够先对教师和学生网络提取的特征进行转换,方式化表明如下:

fa,t=Pt(ft),fa,s=Ps(fs)f_{a, t}=\mathcal{P}_{t}\left(f_{t}\right), \quad f_{a, s}=\mathcal{P}_{s}\left(f_{s}\right)

随后经过每幅图画的二进制类别标签 Mi∈R[HW1]M_i \in \mathcal{R}^{[H \times W \times 1]} 来计算每个类别的原型向量 Ati\mathcal{A}_{t}^{i}Asi\mathcal{A}_{s}^{i},计算公式如下:

Ati=∑x=1HWfa,tx⋅Mix∑x=1HWMix,Asi=∑x=1HWfa,sx⋅Mix∑x=1HWMix\mathcal{A}_{t}^{i}=\frac{\sum_{x=1}^{H W} \boldsymbol{f}_{a, t}^{x} \cdot \boldsymbol{M}_{i}^{x}}{\sum_{x=1}^{H W} \boldsymbol{M}_{i}^{x}}, \quad \mathcal{A}_{s}^{i}=\frac{\sum_{x=1}^{H W} \boldsymbol{f}_{a, s}^{x} \cdot \boldsymbol{M}_{i}^{x}}{\sum_{x=1}^{H W} \boldsymbol{M}_{i}^{x}}

作者将这些原型特征的调集命名为“自适应视角”,因为它们被放在一同能够构成一个分类器,其语义信息在不同的图画上有所不同,即“自适应”到不同的上下文。凭借真实标签提供的语义信息,自适应视角能够更好地描绘编码的语义类内和类间分布。

2.2 教师模型适应性视角的丢失函数

因为教师模型的映射层 Pt\mathcal{P_t} 的参数是随机初始化的,因此在没有优化的情况下其会发生溃散现象。为了确保 Pt\mathcal{P_t} 能够在 At∈R[NC]\mathcal{A}_{t} \in \mathcal{R}^{[N \times C]} 处提供具有代表性的视角,然后提醒每个图画的更多上下文细节,显式正则化是必不可少的一项过程。因此,教师模型适应性视角的丢失函数能够定义为:

Lt=1HW∑x=1HW−log⁡exp⁡(cos⁡(fa,tx,Atc(x))/)∑i=1Nexp⁡(cos⁡(fa,tx,Ati)/)\mathcal{L}_{t}=\frac{1}{H \times W} \sum_{x=1}^{H \times W}-\log \frac{\exp \left(\cos \left(\boldsymbol{f}_{a, t}^{x}, \mathcal{A}_{t}^{c(x)}\right) / \tau\right)}{\sum_{i=1}^{N} \exp \left(\cos \left(\boldsymbol{f}_{a, t}^{x}, \mathcal{A}_{t}^{i}\right) / \tau\right)}

2.3 教师模型适应性视角的丢失函数

因为不一致的视角或许会导致不同的调查(猜测)成果。因此,学生的特征编码器 Gs\mathcal{G_s} 和映射层 Ps\mathcal{P_s} 首先需求经过发生类似的视角来仿照教师模型。为了完结这一方针,作者运用 Lrec\mathcal{L_{rec}} 经过余弦类似测度来完结教师和学生适应性视角的调整。

Lrec=1−1N∑i=1Ncos⁡(Asi,Ati)\mathcal{L}_{\text {rec }}=1-\frac{1}{N} \sum_{i=1}^{N} \cos \left(\mathcal{A}_{s}^{i}, \mathcal{A}_{t}^{i}\right)

此外,从学生的视点进行的猜测成果也需求仿照教师模型的猜测成果,这能够经过最小化他们的调查 pa,tp_{a,t}pa,sp_{a,s} 之间的KLD来完结,如:

Lob=1HW∑x=1HWKLD(pa,sx∥pa,tx)\mathcal{L}_{o b}=\frac{1}{H \times W} \sum_{x=1}^{H \times W} K L D\left(\boldsymbol{p}_{a, s}^{x} \| \boldsymbol{p}_{a, t}^{x}\right)

全体的丢失函数由上述几种丢失函数联合得到,一起优化APD结构。此外,作者还清晰列出了APD的优化进程,如下图所示。

顶刊TPAMI2023|港中文提出基于自适应视角的APD知识蒸馏框架,有效提高现实场景语义分割性能

3.试验成果

作者在Cityscapes、ADE20K、COCO和PASCAL-Context四个数据及上进行了试验,下表展现了以PSPNet[1]作为backbone模型,APD与其他SOTA常识蒸馏办法的功能比照,能够看到APD在三个数据集上均取得了SOTA功能。

顶刊TPAMI2023|港中文提出基于自适应视角的APD知识蒸馏框架,有效提高现实场景语义分割性能

下图展现了在PSPNet和DeepLab-V3[2]上的跨模型蒸馏功能比照,作者还在其间尝试了多种不同的backbone网络,例如RN表明ResNet,MN2表明MobileNetV2,EN表明EfficientNet。

顶刊TPAMI2023|港中文提出基于自适应视角的APD知识蒸馏框架,有效提高现实场景语义分割性能

下图展现了APD结构在COCO数据集上方针检测和实例切割的可视化作用比照。

顶刊TPAMI2023|港中文提出基于自适应视角的APD知识蒸馏框架,有效提高现实场景语义分割性能

4.总结

本文提出的自适应视角蒸馏(APD)办法全体简单直观。与以往经过固定视角(即分类器)取得的像素级猜测来提取常识的蒸馏办法不同,APD旨在为单个样本创建自适应视角,提醒编码特征的更多细节,以协助学生模型取得更好的功能。APD对根本模型没有结构束缚,因此能够很容易地应用于常见的语义切割结构。APD也能够作为一项对现有常识蒸馏办法在语义切割方面的弥补作业。与最先进的语义切割常识蒸馏办法的广泛比较证明了APD的有效性和泛化才能。

参考

[1] H. Zhao, J. Shi, X. Qi, X. Wang, and J. Jia, “Pyramid scene parsing network,” in Proc. Conf. Comput. Vis. Pattern Recognit., 2017, pp. 2881–2890.

[2] L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Yuille, “DeepLab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 40, no. 4, pp. 834–848, Apr. 2018.