本文首发于微信大众号 CVHub,禁止私自转载或售卖到其他渠道,违者必究。

IPMI 2023 港科大陈浩团队新作 | CTO: 重新思考边界检测在医学图像分割中的作用

Title: Rethinking Boundary Detection in Deep Learning Models for Medical Image Segmentation
Paper: arxiv.org/pdf/2305.00…
Code: github.com/xiaofang007…

导读

本文提出了一种新颖的网络架构CTO,即Convolution, TransformerOperator,经过结合卷积神经网络、视觉 Transformer 和显式鸿沟检测操作,完成高精度的图画切割,并在精确性和功率之间坚持最佳平衡。

CTO 遵从规范的编码器-解码器切割范式,其间编码器网络选用流行的 CNN 主干结构来捕捉部分语义信息,并运用轻量级的 ViT 辅助网络来整合远距离依靠联系。为了增强鸿沟的学习才能,本文进一步提出了一种根据鸿沟引导的解码器网络,运用专用鸿沟检测操作得到的鸿沟掩模作为显式监督,引导解码学习过程。

该办法在六个具有挑战性的医学图画切割数据集进步行了评价,成果表明 CTO 在模型复杂度竞争力的一起完成了最先进的精确性。

布景

运算符是传统数字图画处理中的基本组成部分,其间鸿沟检测运算符是最中心的元素,也是本文中心要点。常用的鸿沟检测运算符能够分为两类:

  • 一阶导数运算符(例如Roberts、Prewitt和Sobel)
  • 二阶导数运算符(例如Laplacian)

近年来,鸿沟检测运算符在像素级计算机视觉使命中也被广泛运用,例如manipulation detection和假装方针检测范畴。在本文中,鸿沟检测运算符被用作显式的掩模提取器,以辅导隐式特征学习模型进行医学图画切割,其奉献在于运用中间层的特征图来合成高质量的鸿沟猜测,而无需额定的信息。

办法

Framework

IPMI 2023 港科大陈浩团队新作 | CTO: 重新思考边界检测在医学图像分割中的作用

如上图所示,CTO 遵从编码器-解码器范式,并选用跳跃衔接将来自编码器的初级特征聚合到解码器中。其间编码器网络由主流的 CNN 和辅助 ViT 组成。解码器网络则选用鸿沟检测运算符来辅导其学习过程。

关于编码器,作者规划了一个双流编码器,它结合了卷积神经网络和轻量级视觉 Transformer,别离捕捉图画部分特征依靠和图画块之间的长途特征依靠。这种组合不会带来太多的计算开支。

关于解码器,选用了一个运算符引导的解码器,它运用鸿沟检测运算符(例如Sobel)经过生成的鸿沟掩模来辅导学习过程,整个模型以端到端的办法进行练习。

Dual-Stream Encoder

The Mainstream Convolution Stream

为了捕捉部分特征依靠联系,CTO 首要构建了一个卷积流。本文选择了强大而高效的Res2Net作为主干网络,它由一个卷积干部和四个残差块组成。

IPMI 2023 港科大陈浩团队新作 | CTO: 重新思考边界检测在医学图像分割中的作用

Res2Net 是由南开程分明教授团队早年发表的一种卷积神经网络变体,旨在增强网络的感触野和特征表明才能。它经过从头规划残差模块中的衔接办法,引进了多标准感触野的概念,以提高网络的功能。在传统的残差模块中,特征从一个模块传递到下一个模块时,一般选用相同的标准。然而,Res2Net 引进了一个新的结构单元,称为”Res2Block”,它在模块内部引进了多个分支,每个分支具有不同的感触野。这种多分支结构能够捕捉不同标准的特征,然后增强网络对不同标准信息的表明才能。这种规划使得网络能够更好地捕捉图画中的细节和全局上下文信息,然后提高了图画剖析和计算机视觉使命的功能。

The Assistant Transformer Stream

其次,作者规划了一个根据轻量级视觉 Transformer 的辅助流。LightViT旨在捕捉不同标准图画块之间的长途特征依靠联系。详细而言,它由多个并行的轻量级 Transformer 块组成,这些块接纳不同标准的特征块作为输入。一切的 Transformer 块同享类似的结构,包含块嵌入层和 Transformer 编码层。

LightViT 的块嵌入层用于将输入的特征块转换为嵌入向量,将空间维度转换为序列维度。这样,每个特征块都能够被视为一个序列,并在 Transformer 模块中进行处理。接下来,Transformer 编码层用于对特征块进行自注意力机制的建模,以捕捉不同特征块之间的长程依靠联系。经过在 Transformer 模块中引进自注意力机制,LightViT 能够有效地对特征块之间的相互作用进行建模,然后提取图画的全局上下文信息。

LightViT 的规划使得网络能够在不同标准上捕捉图画块之间的长途特征依靠,然后提高了图画剖析使命的功能。因为选用了轻量级的 Transformer 块,LightViT 在坚持高效功能的一起,减少了模型的计算和存储开支。这使得 LightViT 成为一种适用于医学图画剖析等范畴的有效工具。

Boundary-Guided Decoder

鸿沟引导的解码器运用梯度运算符模块来提取远景方针的鸿沟信息。然后,经过鸿沟优化模块,将鸿沟增强特征与多级编码器的特征进行整合,旨在一起在特征空间中表征类内和类间的一致性,丰富特征的表征才能。这种办法能够使解码器在生成切割成果时更好地运用鸿沟信息,然后发生更精确的切割成果。

Boundary Enhanced Module (BEM)

鸿沟优化模块运用高档特征和初级特征作为输入,提取鸿沟信息并过滤掉与鸿沟无关的信息。为了完成这个方针,作者在水平方向 GxG_{x} 和笔直方向 GyG_{y} 上运用Sobel算子来获得梯度图。详细而言,本文选用两个 333\times 3 的参数固定卷积,并运用步长为1的卷积操作。这两个卷积界说为:

IPMI 2023 港科大陈浩团队新作 | CTO: 重新思考边界检测在医学图像分割中的作用

然后,咱们将这两个卷积运用于输入特征图,得到梯度图 MxM_{x}MyM_{y}。接下来,梯度图经过 sigmoid 函数进行归一化,然后与输入特征图交融,得到增强边际特征图 FeF_{e}

其间,圈号表明逐元素相乘,\sigma 表明 sigmoid 函数,MxyM_{xy} 是将 MxM_{x}MyM_{y} 沿通道维度进行拼接。然后,咱们便能够直接运用简单的堆叠卷积层将边际增强特征图进行交融。最后,输出特征图遭到GT 鸿沟图的监督,然后消除了物体内部的边际特征,发生鸿沟增强特征。

Boundary Inject Module (BIM)

上一步咱们经过 BEM 得到的鸿沟增强特征能够作为先验常识,改进编码器生成的特征的图画表明才能。紧接着,本文提出了 BIM,引进了双途径鸿沟交融计划,促进远景和布景特征的表明才能。详细而言,BIM 接纳两个输入:鸿沟增强特征与来自编码器网络的对应特征的通道级衔接,以及前一解码器层的特征。然后,这两个输入被馈送到 BIM 中,其间包含两个独立的途径,别离用于促进远景和布景的特征表明。关于远景途径,咱们直接沿通道维度将这两个输入进行拼接,然后运用一系列的 Conv-BN-ReLU(卷积、批归一化、ReLU激活)层,得到远景特征。关于布景途径,则规划了布景注意力组件,选择性地重视布景信息。

Loss Function

CTO是一个多使命模型,包含内部和鸿沟切割,本文界说了一个全体丢失函数来一起优化这两个使命:

IPMI 2023 港科大陈浩团队新作 | CTO: 重新思考边界检测在医学图像分割中的作用

全体丢失由主要的内部切割丢失 LsegL_{seg} 和鸿沟丢失 LbndL_{bnd} 组成。需求注意的是,在鸿沟检测丢失中,仅考虑来自 BEM 的猜测成果,该模块将编码器的高层特征图和低层特征图作为输入。至于主要图画切割丢失,作者选用了深监督策略,以获得来自解码器不同层级特征的猜测成果。

Interior Segmentation Loss

LsegL_{seg} 是穿插熵丢失 LCEL_{CE} 和均匀交并比 mIoU 丢失 LmIoUL_{mIoU} 的加权和:

IPMI 2023 港科大陈浩团队新作 | CTO: 重新思考边界检测在医学图像分割中的作用

Boundary Loss

鸿沟丢失 LbndL_{bnd} 考虑到鸿沟检测中远景和布景像素之间的类别不平衡问题,因而选用Dice丢失:

IPMI 2023 港科大陈浩团队新作 | CTO: 重新思考边界检测在医学图像分割中的作用

试验

IPMI 2023 港科大陈浩团队新作 | CTO: 重新思考边界检测在医学图像分割中的作用

本文将 CTO 与包含 U-NetResUNetVNetViTTransUNetSwin-Unet在内的多个 SOTA 办法在以下几个主流的基准数据集进步行试验比对。

ISIC 2016 & PH2

CTO 在 Dice 系数上达到了 91.89%,在 IoU 上达到了 85.18%,别离比最先进办法高出 0.05% 和 0.88%。

IPMI 2023 港科大陈浩团队新作 | CTO: 重新思考边界检测在医学图像分割中的作用

ISIC 2018

经过 5 倍穿插验证,CTO 在 Dice 系数上达到了 91.2%,在 IoU 目标上达到了 84.5%,别离比最先进办法高出 1.8% 和 2.3%。此外,CTO 在 LiTS17 数据集上在Dice和IoU上别离达到了91.50%和84.59%,别离比最先进办法高出0.26%和0.45%。

CoNIC

IPMI 2023 港科大陈浩团队新作 | CTO: 重新思考边界检测在医学图像分割中的作用

3D MISeg

IPMI 2023 港科大陈浩团队新作 | CTO: 重新思考边界检测在医学图像分割中的作用

能够看出,在 BTCV 数据集上,CTO 在 Dice 上达到了 81.10%,在 HD 上达到了 18.75%,超过了最先进办法。尤其是在模糊鸿沟的器官上,如“胰腺”和“胃”,该模型在 Dice 上取得了明显的增益,别离为4.70%和3.60%。值得注意的是,CTO 在模型功率方面表现出色,具有可比较的 FLOPs 和参数,一起取得了竞争性的功能改进。

总结

本研讨提出了一种名为CTO的新型网络架构,用于医学图画切割。与先进的医学图画切割架构比较,CTO 在辨认精确性和计算功率之间取得了更好的平衡。本文的奉献在于运用中间特征图合成高质量的鸿沟监督掩模,而无需额定信息。经过在六个公开数据集进步行的试验,CTO 在功能上超越了最先进的办法,并验证了其各个组件的有效性。


CVHub是一家专注于计算机视觉范畴的高质量常识共享渠道,全站技能文章原创率达99%,每日为您呈献全方位、多范畴、有深度的前沿AI论文解决及配套的职业级运用解决计划,提供科研 | 技能 | 就业一站式服务,包括有监督/半监督/无监督/自监督的各类2D/3D的检测/分类/切割/跟踪/姿势/超分/重建等全栈范畴以及最新的AIGC等生成式模型。重视微信大众号,欢迎参加实时的学术&技能互动交流,领取CV学习大礼包,及时订阅最新的国内外大厂校招&社招资讯!