Title: YONA: You Only Need One Adjacent Reference-frame for Accurate and Fast Video Polyp Detection
Paper: arxiv.org/pdf/2306.03…
导读
结肠镜视频关于辅佐临床直肠癌确诊十分重要,因为比较静态图画,结肠镜视频包括更丰富的信息。但是,与常见的固定摄像头视频不同,结肠镜视频中的摄像头移动会引起快速的画面颤动,导致现有的视频检测模型练习不稳定。
为了处理这个问题,本文提出了一种名为YONA, You Only Need one Adjacent Reference-frame
的办法,这是一个高效的端到端练习结构,用于视频息肉检测。YONA 运用前一帧与当时帧的信息,不需求多帧协作就能对当时帧进行息肉检测。详细而言,关于远景部分,YONA 依据远景的类似性,自适应地将当时帧的通道激活形式与相邻参阅帧进行对齐。关于布景部分,YONA 则经过帧间差异进行布景动态对齐,消除因为剧烈空间颤动发生的无效特征。此外,在练习进程中,YONA 应用了跨帧比照学习,并运用实在鸿沟框信息来改进模型对息肉和布景的感知才能。
终究,研究人员在三个揭露的具有应战性的基准数据集上进行了定量和定性试验证明,所提办法在精确性和速度上都大大优于之前的最先进竞争办法。
布景
结合上图,咱们简略分析下视频息肉切割的三大难点与应战。
Fast motion speed
论文指出,在结肠镜视频中,方针的运动速度一般很快,比较自然视频数据集(如ImageNetVID),结肠镜视频数据集(如LDPolypVideo)中的大多数方针都处于高速运动状况。这导致了相邻远景特征的巨大差异,例如运动模糊或遮挡,如图1(c)所示。因而,作者估测,在息肉视频检测中过多地协作多帧将添加相邻帧之间的错位,导致检测功能较差。图1(b)展示了 FGFA 办法在添加参阅帧数的状况下在两个数据集上的功能。两条曲线的不同趋势证明了这个假定。
Complex background
结肠镜视频与常见的固定摄像头视频不同,摄像头的移动会在相邻帧之间引进大的搅扰(如镜面反射、气泡、水等),如图1(d)所示。这些异常状况破坏了布景结构的完整性,然后影响了多帧交融的效果。
Concealed polyps
如图1(e)所示,能够留意到在结肠镜视频中,有些息肉或许被视为躲藏的方针,因为这些息肉与肠壁具有十分类似的外观。模型在推理进程中会被这些帧所困惑,导致高假阳性或假阴性的猜测成果。
办法
为了应对上述问题,论文提出了 YONA 结构,该结构充分运用了参阅帧信息,而且仅需求一个相邻参阅帧就能精确地进行视频息肉检测。详细而言,本文首要提出了远景时序对齐(FTA)模块,依据远景的类似性明确地对齐相邻特征之间的远景通道激活形式。此外,在 FTA 之后,论文规划了布景动态对齐(BDA)模块,进一步学习帧间布景的空间动态,以更好地消除运动速度的影响并添加练习的稳健性。最终,论文引进了跨帧辅佐比照学习(CBCL),与 FTA 和 BDA 并行,充分运用鸿沟框注释来扩展在嵌入空间中对息肉和布景的区别才能。
Foreground Temporal Alignment
如上所述,在结肠镜视频中,因为摄像头的高速移动,帧间的改变对远景和布景方针来说都十分剧烈。因而,多帧(参阅帧数大于3)的交融或许会将更多的噪声特征引进到聚合特征中。另一方面,被遮挡或扭曲的远景上下文也会影响聚合成果的质量。因而,本文提出了运用仅一个相邻参阅帧的远景上下文进行帧间时序对齐。
FTA 旨在将锚定特征的特定通道激活形式与其前面的参阅特征进行对齐。首要,给定中心特征 Fa、Fr 和参阅二值图 Mr,经过在空间维度上运用二值图对 Fr 进行池化操作,将其转化为一维通道形式 fr,并将其归一化到[0, 1]范围内。然后,运用通道留意机制核算留意力求,并经过加权点积将留意力求与原始锚定特征相结合,经过残差衔接坚持梯度流,然后取得增强的锚定特征。
需求留意的是,在练习阶段,运用参阅帧的实在鸿沟框生成二值图 Mr。在推理阶段,仅当参阅帧的验证鸿沟框存在时,才进行远景时序对齐。经过这种远景时序对齐的方式,有用的缓解快速运动对远景方针检测的影响,经过对锚定特征和前一个参阅帧的对齐,然后进步了远景方针的检测功能。
简略了解,这儿其实便是结合上一帧的信息对当时帧经过留意力机制的方式进行纠正。不过最上面那个 Pooling 会不会有点剩余?毕竟又引进多一个超参出来。
因为视频颤动,相邻帧在时间上或许会快速改变,直接交融参阅特征会引进噪声信息并误导练习。因而,论文规划了一种自适应重新加权的办法,经过衡量特征的类似性来确认参阅特征对锚定特征的重要性。详细而言,假如参阅帧的远景特征与锚定特征挨近,那么在一切通道大将为其分配较大的权重。不然,将分配较小的权重。为了进步效率,作者直接选用余弦类似度衡量来衡量类似性。
哦,原来是来判断“需求参阅多少信息”。简略来说,alpha 参数用于依据参阅特征和锚定特征之间的类似性动态地调整它们之间的权重,以更好地对齐特征并进步远景方针检测的精确性。大白话便是两帧图画越类似,就将这个 feature map 的权重调高,也说得过去,咱们继续往下走。
Background Dynamic Alignment
传统的依据卷积的方针检测器在布景稳定的状况下能够杰出地检测方针。但是,一旦接收到显着的搅扰,如光照或阴影,布景的改变或许导致空间相关性的下降,并引发许多误报猜测。受帧间差异办法的启示,该模块首要提取相邻布景内容的动态场,并借鉴可变形卷积的思维,依据动态场的强度学习内在的几何改换。(有点意思?)
在实践中,给定经过远景时序对齐模块得到的增强锚定特征 F 和参阅特征 Fr,咱们先核算它们之间的帧间差异,即经过逐元素相减得到差异特征(这样直接相减保险吗?)。然后,对差异特征进行 11 卷积,生成动态场,它编码了相邻帧之间的一切空间动态改变(把光流的概念也引进进来了吗,哈哈哈)。最终,经过 33 的可变形卷积将动态场 D 嵌入到锚定特征中,得到终究的对齐锚定特征 F*。
最终,如图所示,在练习阶段,作者将增强的锚定特征输入到三个检测头,由33卷积和11卷积组成,发生用于检测丢失的中心、尺寸和偏移特征。检测丢失由中心丢失、尺寸丢失和偏移丢失组成,并运用 focal loss和 L1 loss 进行加权。这块没什么好讲的,咱们就不展开了。
总的来说,经过这个布景动态对齐的模块,作者试图进步在布景搅扰下的方针检测功能,经过学习布景动态改变的几何改换,增强了锚定特征的表明才能。
Cross-frame Box-assisted Contrastive Learning
前面咱们讲到,在结肠镜视频中,存在一些与肠壁十分类似的隐匿性息肉,因而咱们需求一种高档的练习战略来区别这种同质性。跨帧框辅佐比照学习模块,旨在经过比照学习来区别隐匿性息肉和肠壁的类似性,以进步模型的判别才能。这种辅佐练习战略能够经过比较不同帧之间的特征类似性和差异性来促进模型的学习和泛化才能。
详细而言,受监督比照学习的最新研究启示,该模块挑选两个帧上的远景和布景区域,并经过 GT 进行引导,以进行比照学习。在实践中,给定一批中心特征图 Fa、Fr 和相应的二进制图 Ma、Mr,咱们首要在批处理等级大将锚定特征和参阅特征进行级联(便是 concat 啦~),得到 F 和 M。然后,依据 M 中的 M (x, y) = 1 和 M (x, y) = 0,提取穿插帧特征 F 的远景和布景通道形式(便是用一个阈值提取二值图画),并运用公式(1)进行核算。
然后,关于每个远景通道形式作为”query”,随机挑选另一个不同的远景特征作为”positive”,而同一批次中的一切布景特征都被视为”negatives”。最终,经过 InfoNCE 算法核算一步比照丢失,该丢失用于衡量 “query” 和 “positive” 之间的类似性,以及 “query” 和 “negatives” 之间的差异。最终将一切进程的丢失求和得到终究的比照丢失。
InfoNCE
InfoNCE, Normalized Cross Entropy
是一种用于比照学习的丢失函数,它被广泛应用于自监督学习和无监督学习使命中。它的方针是经过最大化正样本与负样本之间的类似性,来鼓励模型学习到有意义的特征表明。
在比照学习中,InfoNCE 的核算进程如下:关于给定的一个查询样本(query),咱们期望模型能够识别出与之类似的正样本(positive),并将其与其他不类似的负样本(negatives)区别开来。
详细而言,关于每个查询样本,咱们核算其与正样本之间的类似性得分,并对一切负样本进行归一化指数函数运算,然后将得分进行归一化。最终,运用穿插熵丢失函数,将正样本的得分与负样本的得分进行比较,以最大化正样本与负样本之间的差异。
InfoNCE 的数学公式如下:
其间,涉及到一个温度参数,用于操控类似性的平滑程度。终究,经过最小化 InfoNCE 丢失,模型能够学习到更具区别性的特征表明,然后进步比照学习使命的功能。
试验
数据集
本文在三个主流揭露的视频息肉检测基准数据集上评价了所提出的办法,分别是SUN Colonoscopy Video Database
、LDPolypVideo
和CVC-VideoClinicDB
。这些数据集分别包括了大量的练习集和测验集帧数,用于测验算法的功能。
参数设置
本文主干网络选取ResNet-50
,并挑选了CenterNet
作为基础检测器。与 CenterNet 相同的设置中,作者设定了 szie=0.1\lambda_{szie} = 0.1 和 szie=1\lambda_{szie} = 1,用于操控方针尺寸和偏移的丢失权重。对练习集图画进行随机裁剪和调整大小为 512512,并运用 ImageNet 的归一化设置进行预处理。数据增强方面,选用了随机旋转和翻转操作。批量大小设置为 32。
此外,模型运用 Adam 优化器进行练习,权重衰减率为 5 10^(-4),练习时长为 64 个 epochs。初始学习率设定为 10^(-4),并选用余弦退火战略逐渐减小到 10^(-5)。超参数 contrast\lambda{contrast} 经过消融试验设定为 0.3。
效果
:::block-1
与 CenterNet 基线比较,YONA 模型经过三个创新规划明显进步了 F1 分数,分别在三个基准数据集上提升了9.2%、8.3%和7.4%,证明了模型规划的有用性。此外,与一切其他依据图画的最先进办法比较,YONA 在精确性和速度之间取得了最佳的平衡,适用于一切数据集。其次,关于依据视频的 SOTA ,先前的多帧协作的视频方针检测器在具有应战性的数据集上缺乏精确检测的才能。详细而言,YONA 在三个数据集上的F1分数分别超过了次优的STFT办法2.2%、3.0%和1.3%,而且FPS到达33.8。
:::
:::block-1
如图所示,因为选用了一附近帧的结构,YONA 不仅能够防止部分遮挡导致的误报(第1和第2个片段),还能够在严峻的图画质量下捕捉到有用的信息(第2个片段)。此外,YONA 在具有应战性的场景中,如隐匿性息肉(第3个片段),展示出了稳健的功能。
:::
总结
本文提出了一种名为 YONA 的新结构,用于精确和快速检测结肠镜视频中的息肉。该结构经过引进远景和布景对齐模块来处理快速运动状况下的特征,同时引进跨帧比照学习模块来增强模型对息肉和肠壁的区别才能。试验证明,YONA 在三个大规模揭露视频息肉检测数据集上取得了最先进的功能。