本文首发于微信大众号 CVHub,禁止私自转载或售卖到其他渠道,违者必究。
Title: Rethinking Boundary Detection in Deep Learning Models for Medical Image Segmentation
Paper: arxiv.org/pdf/2305.00…
Code: github.com/xiaofang007…
导读
本文提出了一种新颖的网络架构CTO
,即Convolution
, Transformer
和 Operator
,经过结合卷积神经网络、视觉 Transformer 和显式鸿沟检测操作,完成高精度的图画切割,并在精确性和功率之间坚持最佳平衡。
CTO 遵从规范的编码器-解码器切割范式,其间编码器网络选用流行的 CNN 主干结构来捕捉部分语义信息,并运用轻量级的 ViT 辅助网络来整合远距离依靠联系。为了增强鸿沟的学习才能,本文进一步提出了一种根据鸿沟引导的解码器网络,运用专用鸿沟检测操作得到的鸿沟掩模作为显式监督,引导解码学习过程。
该办法在六个具有挑战性的医学图画切割数据集进步行了评价,成果表明 CTO 在模型复杂度竞争力的一起完成了最先进的精确性。
布景
运算符是传统数字图画处理中的基本组成部分,其间鸿沟检测运算符是最中心的元素,也是本文中心要点。常用的鸿沟检测运算符能够分为两类:
- 一阶导数运算符(例如Roberts、Prewitt和Sobel)
- 二阶导数运算符(例如Laplacian)
近年来,鸿沟检测运算符在像素级计算机视觉使命中也被广泛运用,例如manipulation detection
和假装方针检测范畴。在本文中,鸿沟检测运算符被用作显式的掩模提取器,以辅导隐式特征学习模型进行医学图画切割,其奉献在于运用中间层的特征图来合成高质量的鸿沟猜测,而无需额定的信息。
办法
Framework
如上图所示,CTO 遵从编码器-解码器范式,并选用跳跃衔接将来自编码器的初级特征聚合到解码器中。其间编码器网络由主流的 CNN 和辅助 ViT 组成。解码器网络则选用鸿沟检测运算符来辅导其学习过程。
关于编码器,作者规划了一个双流编码器,它结合了卷积神经网络和轻量级视觉 Transformer,别离捕捉图画部分特征依靠和图画块之间的长途特征依靠。这种组合不会带来太多的计算开支。
关于解码器,选用了一个运算符引导的解码器,它运用鸿沟检测运算符(例如Sobel
)经过生成的鸿沟掩模来辅导学习过程,整个模型以端到端的办法进行练习。
Dual-Stream Encoder
The Mainstream Convolution Stream
为了捕捉部分特征依靠联系,CTO 首要构建了一个卷积流。本文选择了强大而高效的Res2Net
作为主干网络,它由一个卷积干部和四个残差块组成。
Res2Net 是由南开程分明教授团队早年发表的一种卷积神经网络变体,旨在增强网络的感触野和特征表明才能。它经过从头规划残差模块中的衔接办法,引进了多标准感触野的概念,以提高网络的功能。在传统的残差模块中,特征从一个模块传递到下一个模块时,一般选用相同的标准。然而,Res2Net 引进了一个新的结构单元,称为”Res2Block”,它在模块内部引进了多个分支,每个分支具有不同的感触野。这种多分支结构能够捕捉不同标准的特征,然后增强网络对不同标准信息的表明才能。这种规划使得网络能够更好地捕捉图画中的细节和全局上下文信息,然后提高了图画剖析和计算机视觉使命的功能。
The Assistant Transformer Stream
其次,作者规划了一个根据轻量级视觉 Transformer 的辅助流。LightViT
旨在捕捉不同标准图画块之间的长途特征依靠联系。详细而言,它由多个并行的轻量级 Transformer 块组成,这些块接纳不同标准的特征块作为输入。一切的 Transformer 块同享类似的结构,包含块嵌入层和 Transformer 编码层。
LightViT 的块嵌入层用于将输入的特征块转换为嵌入向量,将空间维度转换为序列维度。这样,每个特征块都能够被视为一个序列,并在 Transformer 模块中进行处理。接下来,Transformer 编码层用于对特征块进行自注意力机制的建模,以捕捉不同特征块之间的长程依靠联系。经过在 Transformer 模块中引进自注意力机制,LightViT 能够有效地对特征块之间的相互作用进行建模,然后提取图画的全局上下文信息。
LightViT 的规划使得网络能够在不同标准上捕捉图画块之间的长途特征依靠,然后提高了图画剖析使命的功能。因为选用了轻量级的 Transformer 块,LightViT 在坚持高效功能的一起,减少了模型的计算和存储开支。这使得 LightViT 成为一种适用于医学图画剖析等范畴的有效工具。
Boundary-Guided Decoder
鸿沟引导的解码器运用梯度运算符模块来提取远景方针的鸿沟信息。然后,经过鸿沟优化模块,将鸿沟增强特征与多级编码器的特征进行整合,旨在一起在特征空间中表征类内和类间的一致性,丰富特征的表征才能。这种办法能够使解码器在生成切割成果时更好地运用鸿沟信息,然后发生更精确的切割成果。
Boundary Enhanced Module (BEM)
鸿沟优化模块运用高档特征和初级特征作为输入,提取鸿沟信息并过滤掉与鸿沟无关的信息。为了完成这个方针,作者在水平方向 GxG_{x} 和笔直方向 GyG_{y} 上运用Sobel
算子来获得梯度图。详细而言,本文选用两个 333\times 3 的参数固定卷积,并运用步长为1的卷积操作。这两个卷积界说为:
然后,咱们将这两个卷积运用于输入特征图,得到梯度图 MxM_{x} 和 MyM_{y}。接下来,梯度图经过 sigmoid
函数进行归一化,然后与输入特征图交融,得到增强边际特征图 FeF_{e}:
其间,圈号表明逐元素相乘,\sigma 表明 sigmoid 函数,MxyM_{xy} 是将 MxM_{x} 和 MyM_{y} 沿通道维度进行拼接。然后,咱们便能够直接运用简单的堆叠卷积层将边际增强特征图进行交融。最后,输出特征图遭到GT 鸿沟图的监督,然后消除了物体内部的边际特征,发生鸿沟增强特征。
Boundary Inject Module (BIM)
上一步咱们经过 BEM 得到的鸿沟增强特征能够作为先验常识,改进编码器生成的特征的图画表明才能。紧接着,本文提出了 BIM,引进了双途径鸿沟交融计划,促进远景和布景特征的表明才能。详细而言,BIM 接纳两个输入:鸿沟增强特征与来自编码器网络的对应特征的通道级衔接,以及前一解码器层的特征。然后,这两个输入被馈送到 BIM 中,其间包含两个独立的途径,别离用于促进远景和布景的特征表明。关于远景途径,咱们直接沿通道维度将这两个输入进行拼接,然后运用一系列的 Conv-BN-ReLU(卷积、批归一化、ReLU激活)层,得到远景特征。关于布景途径,则规划了布景注意力组件,选择性地重视布景信息。
Loss Function
CTO
是一个多使命模型,包含内部和鸿沟切割,本文界说了一个全体丢失函数来一起优化这两个使命:
全体丢失由主要的内部切割丢失 LsegL_{seg} 和鸿沟丢失 LbndL_{bnd} 组成。需求注意的是,在鸿沟检测丢失中,仅考虑来自 BEM 的猜测成果,该模块将编码器的高层特征图和低层特征图作为输入。至于主要图画切割丢失,作者选用了深监督策略,以获得来自解码器不同层级特征的猜测成果。
Interior Segmentation Loss
LsegL_{seg} 是穿插熵丢失 LCEL_{CE} 和均匀交并比 mIoU 丢失 LmIoUL_{mIoU} 的加权和:
Boundary Loss
鸿沟丢失 LbndL_{bnd} 考虑到鸿沟检测中远景和布景像素之间的类别不平衡问题,因而选用Dice丢失:
试验
本文将 CTO
与包含 U-Net
、ResUNet
、VNet
、ViT
、TransUNet
和Swin-Unet
在内的多个 SOTA 办法在以下几个主流的基准数据集进步行试验比对。
ISIC 2016 & PH2
CTO 在 Dice 系数上达到了 91.89%,在 IoU 上达到了 85.18%,别离比最先进办法高出 0.05% 和 0.88%。
ISIC 2018
经过 5 倍穿插验证,CTO 在 Dice 系数上达到了 91.2%,在 IoU 目标上达到了 84.5%,别离比最先进办法高出 1.8% 和 2.3%。此外,CTO 在 LiTS17 数据集上在Dice和IoU上别离达到了91.50%和84.59%,别离比最先进办法高出0.26%和0.45%。
CoNIC
3D MISeg
能够看出,在 BTCV 数据集上,CTO 在 Dice 上达到了 81.10%,在 HD 上达到了 18.75%,超过了最先进办法。尤其是在模糊鸿沟的器官上,如“胰腺”和“胃”,该模型在 Dice 上取得了明显的增益,别离为4.70%和3.60%。值得注意的是,CTO 在模型功率方面表现出色,具有可比较的 FLOPs 和参数,一起取得了竞争性的功能改进。
总结
本研讨提出了一种名为CTO
的新型网络架构,用于医学图画切割。与先进的医学图画切割架构比较,CTO 在辨认精确性和计算功率之间取得了更好的平衡。本文的奉献在于运用中间特征图合成高质量的鸿沟监督掩模,而无需额定信息。经过在六个公开数据集进步行的试验,CTO 在功能上超越了最先进的办法,并验证了其各个组件的有效性。
CVHub是一家专注于计算机视觉范畴的高质量常识共享渠道,全站技能文章原创率达99%,每日为您呈献全方位、多范畴、有深度的前沿AI论文解决及配套的职业级运用解决计划,提供科研 | 技能 | 就业一站式服务,包括有监督/半监督/无监督/自监督的各类2D/3D的检测/分类/切割/跟踪/姿势/超分/重建等全栈范畴以及最新的AIGC等生成式模型。重视微信大众号,欢迎参加实时的学术&技能互动交流,领取CV学习大礼包,及时订阅最新的国内外大厂校招&社招资讯!