前言 语义切割的弱增量学习(WILSS)目的是学习从廉价和广泛可用的图画级标签中切割出新的类别,但图画等级的标签不能供给定位每个片段的细节。为了处理该问题,本文提出了一个新颖且数据高效的框架(FMWISS)。该框架提出了根据预练习的共同切割,以提炼出互补根底模型的常识来生成密布的伪标签。用师生结构进一步优化噪声伪标签,并引进根据内存的仿制-粘贴增强技能,以改善旧类的灾难性忘掉问题。
FMWISS在Pascal VOC和COCO数据集上的广泛实验证明了其优越功能,例如,在15-5 VOC设置中完成了70.7%和73.3%,别离比最先进的办法高出3.4%和6.1%。
欢迎重视大众号CV技能指南,专心于核算机视觉的技能总结、最新技能盯梢、经典论文解读、CV招聘信息。
核算机视觉入门1v3辅导班
论文:arxiv.org/pdf/2302.14…
论文出发点
已有的语义切割办法在一个数据集上预练习的模型,在另一个有新类别的数据集上重新练习时,很简单忘掉学到的常识。这种现象被称为 “灾难性忘掉”。处理这种灾难性忘掉问题的一个很有出路的办法被称为增量学习。
最近,有一些办法被提出来处理语义切割的增量学习(ILSS)任务,进一步开展这些办法的一个关键障碍是对新类别的像素级注释的要求。以此为根底,从图画等级的标签中逐渐更新模型,以取得新的类别。但图画等级的标签不能供给准确定位每个片段的细节,这约束了WILSS的功能和开展。
这篇论文提出一个根底模型驱动弱增量学习的语义切割框架,被称为FMWISS,旨在改进并更有效地运用给定的图画级标签对新类别的监督,一起保留旧类别的常识。
立异思路
本文测验运用互补的根底模型来改善和更有效地运用仅给定图画等级标签的监督,提出了根据预练习的共同切割,经过从预练习的根底模型中提炼出类别意识和类别无关的常识来生成密布的掩码,这针对原始图画标签供给了密布的监督。
一起为了有效地运用伪标签,运用了一个师生架构,并提出了密布比照丢失,以动态地优化嘈杂的伪标签。进一步引进了根据内存的仿制-粘贴增强技能,以弥补旧类的忘掉问题,也能够进步功能。
办法
预练习的协同切割办法
为了取得新类别图画的密布猜测,作者使用预练习的 CLIP 模型来提取给定图画级标签的类别感知像素注释:
由 CLIP 生成的伪掩码能够供给丰厚的类别感知像素注释,但由于根据图画文本对的 CLIP 练习范式注定拿手实例级分类而不是切割,因而掩码有噪声。为了进步掩码质量,本文提炼另一种根底模型的常识,即自监督预练习模型。这些模型能够生成紧凑的类别不可知留意力图。可是,怎么在给定可能包括多个目标的图画的状况下为方针类提取切割是个难点。为了处理这个问题,作者经过特定类别的种子辅导来改进初始掩码:
伪标签优化
为了有效运用生成的伪像素标签,以供给比图画级标签更多的信息。因而,作者运用师生架构来进一步优化依然嘈杂的伪掩码。具体来说,经过将切割模型作为学生模型,引进了一个插件教师模块(图 2 中的 ASPP 网络),以在练习过程中动态学习更好的伪掩码。
受无监督表明学习中 InfoNCE 丢失的启示,本文履行密布比照学习,核算如下:
逐像素 BCE 丢失和上式中的密布比照丢失能够相互补充,帮助教师模块学习判别像素特征以及经过类内和类间像素特征建模来标准像素特征空间。
根据内存的仿制粘贴增强
首先为每个旧类构建一个 memory bank,每个类存档将在根底模型练习期间存储 B 个远景实例和切割标签。然后,在每个步骤中,从随机挑选的旧类档案中随机挑选一对远景图画和标签,并将它们随机粘贴到新类图画中。练习样本包括第 t 步的新类图画以及第 t-1 步的旧类图画和像素标签,如图4所示:
全体优化
经过提取练习模型和动态更新的教师模型的常识,在步骤 t 优化切割模型。由于教师模型主要经过二元交叉熵丢失进行优化,因而,运用 BCE 丢失将教师模型的猜测进行提炼。考虑到学习到的伪掩码并不完美,作者运用软像素标签作为新类别的终究监督,并运用旧模型和教师模块输出的加权平均值作为旧类的监督。
成果
之前的 WILSS SoTA 和本文的 FMWISS 在 10-10 VOC 设置下的定性比较。从左到右:原始图画、WILSON、FMWISS 和 ground-truth。
在Pascal VOC 15-5数据集上设置的成果。其间,“P”和“I”别离表明像素级和图画级标签。运用图画级标签和运用像素级标签作为监督的最佳办法别离以粗体和下划线表明。
COCO-to-VOC 设置的成果:
欢迎重视大众号CV技能指南,专心于核算机视觉的技能总结、最新技能盯梢、经典论文解读、CV招聘信息。
核算机视觉入门1v3辅导班
【技能文档】《从零建立pytorch模型教程》122页PDF下载
QQ沟通群:444129970。群内有大佬负责解答我们的日常学习、科研、代码问题。
其它文章
DiffusionDet:用于目标检测的分散模型
CV小常识评论与剖析(7) 寻找论文立异点的新方式
CV小常识剖析与评论(6)论文立异的一点误区
一文看尽深度学习中的各种留意力机制
MMYOLO 想你所想:练习过程可视化
顶刊TPAMI 2023!Food2K:大规模食品图画识别
2023最新半监督语义切割总述 | 技能总结与展望!
原来Transformer便是一种图神经网络,这个概念你清楚吗?
快速完成常识蒸馏算法,运用 MMRazor 就够啦!
常识蒸馏的搬迁学习使用
TensorFlow 真的要被 PyTorch 比下去了吗?
深入剖析MobileAI图画超分最佳方案:ABPN
3D方针检测中点云的稀疏性问题及处理方案
一文深度剖析分散模型究竟学到了什么?
OpenMMLab教程【零】OpenMMLab介绍与安装
代码实战:YOLOv5完成钢材表面缺点检测
TensorRT教程(六)运用Python和C++部署YOLOv5的TensorRT模型
超全汇总 | 核算机视觉/自动驾驶/深度学习材料合集!
高精度语义地图构建的一点考虑
点云切割练习哪家强?监督,弱监督,无监督仍是半监督?
核算机视觉入门1v3辅导班
核算机视觉沟通群
用于超大图画的练习战略:Patch Gradient Descent
CV小常识评论与剖析(5)究竟什么是Latent Space?
【免费送书活动】关于语义切割的亿点考虑
新方案:从错误中学习,点云切割中的自我标准化层次语义表明
经典文章:Transformer是怎么进军点云学习范畴的?
CVPR 2023 Workshop | 首个大规模视频全景切割比赛
怎么更好地应对下流小样本图画数据?不平衡数据集的建模的技巧和策
Transformer沟通群
深度了解变分自编码器(VAE) | 从入门到精通
核算机视觉入门1v3辅导班
核算机视觉沟通群