前言 ViT能够缓解弱监督语义切割 (WSSS) 中,CAM生成伪标签无法辨认完好对象区域的问题,可是它也形成过度滑润的问题。为了处理这个问题,本文提出ToCo办法,首要,因为调查到 ViT 中的中间层依然能够保留语义多样性,规划了一个 Patch Token Contrast 模块 (PTC)。 PTC 运用从中间层派生的伪符号关系来监督终究的补丁符号,答应它们对齐语义区域,然后发生更精确的 CAM。其次,为了进一步区别 CAM 中的低置信度区域,规划了一个类符号比照模块 (CTC),CTC 经过比照它们的类符号来促进不确定部分区域和全局对象之间的标明一致性。
在 PASCAL VOC 和 MS COCO 数据集上的实验标明,所提出的 ToCo 能够明显逾越其他单级竞争对手,并与最先进的多级办法实现可比的功能。
本文转载自自动驾驶之心
作者 | 王汝嘉
仅用于学术共享,若侵权请联系删除
欢迎关注大众号CV技能攻略,专心于计算机视觉的技能总结、最新技能盯梢、经典论文解读、CV招聘信息。
CV各大方向专栏与各个布置结构最全教程收拾
计算机视觉入门1v3辅导班
论文:arxiv.org/pdf/2303.01…代码:github.com/rulixiang/T…
论文思路:
运用图画级(image-level)标签的弱监督语义切割(WSSS)一般运用类激活映射(Class Activation Map, CAM)生成伪标签。受CNN部分结构感知的限制,CAM一般无法辨认完好的方针区域。尽管最近的VisionTransformer(ViT)能够弥补这个缺陷,可是本文调查到它也带来了过度滑润(over-smoothing)的问题,即终究的patch token趋向于一致。在这项工作中,本文提出Token Contrast(ToCo)来处理这个问题,并进一步探究ViT关于WSSS的优点。首要,根据ViT的中间层依然能够保持语义多样性的调查,本文规划了一个Patch Token Contrast module(PTC)。PTC运用中间层派生的pseudo token关系来监督最后的patch tokens,答应它们对齐语义区域,然后发生更精确的CAM。其次,为了进一步区别CAM中的低置信度区域,本文规划了一个Class Token Contrast module(CTC),其灵感来自于ViT中的class tokens能够捕获高档语义。CTC经过比照不确定的部分区域和全局物体的class tokens,促进了它们之间的标明一致性。在PASCAL VOC和MS COCO数据集上的实验标明,提出的ToCo能够明显地逾越其他single-stage竞争对手,并达到与当前最先进的multi-stage算法适当的功能.
主要贡献:
本文提出Patch Token Contrast(PTC)来处理ViT中的过度滑润问题。PTC经过运用中间常识监督终究的tokens,能够对立patch的均匀性,明显进步WSSS伪标签的质量。
本文提出了Class Token Contrast(CTC),它能够对全局远景和部分不确定区域(布景)的标明进行比照,并促进了CAM中方针激活的完好性。
在PASCAL VOC[14]和MS COCO数据集[26]上的实验标明,提出的ToCo办法能够明显优于SOTA single-stage WSSS办法,并且能够达到与multi-stage竞争对手适当的功能。
网络规划:
图3。ToCo的整体结构。ToCo首要运用一个额定的分类层(cls. layer)来出产辅佐CAM(aux. CAM)。在PTC模块中,运用aux. CAM来推导tokens关系,并监督终究patch tokens的成对tokens类似度,以处理过度滑润问题。在CTC模块中,将负/正图画的class tokens进行投影,并与global class token进行比照,进一步区别CAM中的低置信度区域。伪标签是用终究的CAM生成的。
如图3所示,ToCo在ViT编码器中运用一个辅佐分类层来生成辅佐CAM。随后运用辅佐CAM生成辅佐伪标签并引导PTC模块。同时,它也被用来为CTC模块生成裁剪正面和负面部分图画的提议。运用分类层获得终究CAM,并且运用该终究CAM来生成终究伪标签。
实验成果:
欢迎关注大众号CV技能攻略,专心于计算机视觉的技能总结、最新技能盯梢、经典论文解读、CV招聘信息。
计算机视觉入门1v3辅导班
【技能文档】《从零搭建pytorch模型教程》122页PDF下载
QQ沟通群:470899183。群内有大佬担任解答大家的日常学习、科研、代码问题。
其它文章
CVPR 2023 | One-to-Few:没有NMS检测也能够很强很快
ICLR 2023 | Specformer: Spectral GNNs Meet Transformers
从头审视Dropout
RestoreDet:低分辨率图画中方针检测
AAAI 2023 | 打破NAS瓶颈,AIO-P跨使命网络功能猜测新结构
CLIP:语言-图画标明之间的桥梁
方针检测Trick | SEA办法轻松抹平One-Stage与Two-Stage方针检测之间的距离
少样本学习总述:技能、算法和模型
CVPR 2023 | 标注500类,检测7000类!清华大学等提出通用方针检测算法UniDetector
CVPR 2023|根据多层多标准重建使命的MIM改善算法
CVPR 2023 | 逾越MAE!谷歌提出MAGE:图画分类和生成达到SOTA!
称雄Kaggle的十大深度学习技巧
CVPR 2023 | 用于半监督方针检测的常识蒸馏办法
方针盯梢方向开源数据集资源汇总
CVPR2023 | 书生模型霸榜COCO方针检测,研究团队解读公开
Vision Transformer的重参化也来啦 | RepAdpater让ViT起飞
高效紧缩99%参数量!轻量型图画增强计划CLUT-Net开源
一文了解 CVPR 2023 的Workshop 都要做什么
CVPR’23 最新 70 篇论文分方向收拾|包含方针检测、图画处理、人脸、医学影像、半监督学习等方向
方针检测无痛涨点新办法 | DRKD蒸馏让ResNet18具有ResNet50的精度
PyTorch 2.0正式版来了!
CVPR2023最新Backbone | FasterNet远超ShuffleNet、MobileNet、MobileViT等模型
CVPR2023 | 集成预练习金字塔结构的Transformer模型
AAAI 2023 | 一种通用的粗-细视觉Transformer加快计划
大核分化与注意力机制的奇妙结合,图画超分多标准注意网络MAN已开源!
计算机视觉各个方向沟通群与常识星球
CV小常识讨论与剖析(7) 寻找论文立异点的新方式
CV小常识剖析与讨论(6)论文立异的一点误区
计算机视觉入门1v3辅导班
计算机视觉沟通群
聊聊计算机视觉入门