​前言:

最近几年,注意力机制用来提高模型功能有比较好的表现,我们都用得很舒服。本文将介绍一种新提出的坐标注意力机制,这种机制处理了SE,CBAM上存在的一些问题,产生了更好的效果,而运用与SE,CBAM相同简略。

论文地址:arxiv.org/pdf/2103.02…

代码地址:github.com/AndrewQibin…

点个重视,每天更新两篇计算机视觉的文章

Introduction

大部分注意力机制用于深度神经网络能够带来很好的功能提高,但这些注意力机制用于移动网络(模型比较小)会显着落后于大网络,这首要是因为大多数注意力机制带来的计算开销关于移动网络而言是无法接受的,例如self-attention。

因而,在移动网络上首要运用Squeeze-and-Excitation (SE),BAM和CBAM。但SE只考虑内部通道信息而疏忽了方位信息的重要性,而视觉中方针的空间结构是很重要的。BAM和CBAM尝试去经过在通道上进行大局池化来引进方位信息,但这种方法只能捕获部分的信息,而无法获取长规模依赖的信息。

这儿略微解释一下,经过几层的卷积后feature maps的每个方位都包含了原图像一个部分区域的信息,CBAM是经过对每个方位的多个通道取最大值平和均值来作为加权系数,因而这种加权只考虑了部分规模的信息。

在本文中提出了一种新颖且高效的注意力机制,经过嵌入方位信息到通道注意力,从而使移动网络获取更大区域的信息而防止引进大的开销。为了防止2D大局池化引进方位信息丢失,本文提出分化通道注意为两个并行的1D特征编码来高效地整合空间坐标信息到生成的attention maps中。

具体而言,利用两个1D大局池化操作将沿笔直和水平方向的input features别离聚合为两个独自的direction-aware feature maps。 然后将具有嵌入的特定方向信息的这两个特征图别离编码为两个attention map,每个attention map都沿一个空间方向捕获输入特征图的远距离依存关系。 方位信息因而能够被保存在所生成的attention map中。 然后经过乘法将两个attention map都应用于input feature maps,以着重注意区域的表明。

考虑到其操作能够区别空间方向(即坐标)并生成coordinate-aware attention maps,因而论文将提出的注意力方法称为“coordinate attention”。

这种coordinate attention有三个长处:

  1. 它捕获了不只跨通道的信息,还包含了direction-aware和position-sensitive的信息,这使得模型更精确地定位到并辨认方针区域。

  2. 这种方法灵敏且轻量,很容易刺进到现有的经典移动网络中,例如MobileNet_v2中的倒残差块和MobileNeXt中的沙漏块中去提高特征表明功能。

  3. 对一个预练习的模型来说,这种coordinate attention能够给运用移动网络处理的down-stream任务带来显着功能提高,尤其是那些密布预测的任务,例如语义切割。

Coordinate Attention

在介绍coordinate attention前先回顾一下SE和CBAM。

CVPR2021| 继SE,CBAM后的一种新的注意力机制Coordinate Attention
CVPR2021| 继SE,CBAM后的一种新的注意力机制Coordinate Attention

SE比较简略,如图a所示,看一下这个结构图就懂了。

略微介绍一下CBAM,如图b所示,CBAM包含空间注意力和通道注意力两部分。

通道注意力:对input feature maps每个feature map做大局均匀池化和大局最大池化,得到两个1d向量,再经过conv,ReLU,1x1conv,sigmoid进行归一化后对input feature maps加权。

空间注意力:对feature map的每个方位的所有通道上做最大池化平和均池化,得到两个feature map,再对这两个feature map进行7×7 Conv,再使BN和sigmoid归一化。

具体如下图所示:

CVPR2021| 继SE,CBAM后的一种新的注意力机制Coordinate Attention
CVPR2021| 继SE,CBAM后的一种新的注意力机制Coordinate Attention

回到Coordinate Attention上,如下图所示,别离对水平方向和笔直方向进行均匀池化得到两个1D向量,在空间维度上Concat和1x1Conv来紧缩通道,再是经过BN和Non-linear来编码笔直方向和水平方向的空间信息,接下来split,再各自经过1×1得到input feature maps相同的通道数,再归一化加权。

CVPR2021| 继SE,CBAM后的一种新的注意力机制Coordinate Attention
CVPR2021| 继SE,CBAM后的一种新的注意力机制Coordinate Attention

简略说来,Coordinate Attention是经过在水平方向和笔直方向上进行最大池化,再进行transform对空间信息编码,最后把空间信息经过在通道上加权的方法交融。

Conclusion

这种方法与SE,CBAM有显着提高。

CVPR2021| 继SE,CBAM后的一种新的注意力机制Coordinate Attention
CVPR2021| 继SE,CBAM后的一种新的注意力机制Coordinate Attention

CVPR2021| 继SE,CBAM后的一种新的注意力机制Coordinate Attention
CVPR2021| 继SE,CBAM后的一种新的注意力机制Coordinate Attention

下一篇将对注意力机制进行做一个总结。

本文来源于大众号 CV技能攻略 的技能总结系列。

欢迎重视大众号 CV技能攻略 ,专心于计算机视觉的技能总结、最新技能盯梢、经典论文解读。

在大众号中回复关键字 “技能总结” 可获取以下文章的汇总pdf。

其它文章

视觉方针检测和辨认之曩昔,现在及或许

siamerse network总结

计算机视觉专业术语总结(一)构建计算机视觉的知识体系

欠拟合与过拟合技能总结

归一化方法总结

论文创新的常见思路总结

CV方向的高效阅读英文文献方法总结

计算机视觉中的小样本学习总述

知识蒸馏的简要概述

优化OpenCV视频的读取速度

NMS总结

丢失函数技能总结

注意力机制技能总结

特征金字塔技能总结

池化技能总结

数据增强方法总结

CNN结构演化总结(一)经典模型

CNN结构演化总结(二)轻量化模型

CNN结构演化总结(三)规划准则

如何看待计算机视觉未来的走向

CNN可视化技能总结(一)-特征图可视化

CNN可视化技能总结(二)-卷积核可视化

CNN可视化技能总结(三)-类可视化

CNN可视化技能总结(四)-可视化东西与项目CVPR2021| 继SE,CBAM后的一种新的注意力机制Coordinate Attention

CVPR2021| 继SE,CBAM后的一种新的注意力机制Coordinate Attention