IPMI 2023 港科大陈浩团队新作 | CTO: 重新思考边界检测在医学图像分割中的作用-六虎

本文首发于微信大众号 CVHub，禁止私自转载或售卖到其他渠道，违者必究。

Title: Rethinking Boundary Detection in Deep Learning Models for Medical Image Segmentation
Paper: arxiv.org/pdf/2305.00…
Code: github.com/xiaofang007…

导读

本文提出了一种新颖的网络架构CTO，即Convolution, Transformer 和 Operator，经过结合卷积神经网络、视觉 Transformer 和显式鸿沟检测操作，完成高精度的图画切割，并在精确性和功率之间坚持最佳平衡。

CTO 遵从规范的编码器-解码器切割范式，其间编码器网络选用流行的 CNN 主干结构来捕捉部分语义信息，并运用轻量级的 ViT 辅助网络来整合远距离依靠联系。为了增强鸿沟的学习才能，本文进一步提出了一种根据鸿沟引导的解码器网络，运用专用鸿沟检测操作得到的鸿沟掩模作为显式监督，引导解码学习过程。

该办法在六个具有挑战性的医学图画切割数据集进步行了评价，成果表明 CTO 在模型复杂度竞争力的一起完成了最先进的精确性。

布景

运算符是传统数字图画处理中的基本组成部分，其间鸿沟检测运算符是最中心的元素，也是本文中心要点。常用的鸿沟检测运算符能够分为两类：

一阶导数运算符（例如Roberts、Prewitt和Sobel）
二阶导数运算符（例如Laplacian）

近年来，鸿沟检测运算符在像素级计算机视觉使命中也被广泛运用，例如manipulation detection和假装方针检测范畴。在本文中，鸿沟检测运算符被用作显式的掩模提取器，以辅导隐式特征学习模型进行医学图画切割，其奉献在于运用中间层的特征图来合成高质量的鸿沟猜测，而无需额定的信息。

办法

Framework

如上图所示，CTO 遵从编码器-解码器范式，并选用跳跃衔接将来自编码器的初级特征聚合到解码器中。其间编码器网络由主流的 CNN 和辅助 ViT 组成。解码器网络则选用鸿沟检测运算符来辅导其学习过程。

关于编码器，作者规划了一个双流编码器，它结合了卷积神经网络和轻量级视觉 Transformer，别离捕捉图画部分特征依靠和图画块之间的长途特征依靠。这种组合不会带来太多的计算开支。

关于解码器，选用了一个运算符引导的解码器，它运用鸿沟检测运算符（例如Sobel）经过生成的鸿沟掩模来辅导学习过程，整个模型以端到端的办法进行练习。

Dual-Stream Encoder

The Mainstream Convolution Stream

为了捕捉部分特征依靠联系，CTO 首要构建了一个卷积流。本文选择了强大而高效的Res2Net作为主干网络，它由一个卷积干部和四个残差块组成。

Res2Net 是由南开程分明教授团队早年发表的一种卷积神经网络变体，旨在增强网络的感触野和特征表明才能。它经过从头规划残差模块中的衔接办法，引进了多标准感触野的概念，以提高网络的功能。在传统的残差模块中，特征从一个模块传递到下一个模块时，一般选用相同的标准。然而，Res2Net 引进了一个新的结构单元，称为”Res2Block”，它在模块内部引进了多个分支，每个分支具有不同的感触野。这种多分支结构能够捕捉不同标准的特征，然后增强网络对不同标准信息的表明才能。这种规划使得网络能够更好地捕捉图画中的细节和全局上下文信息，然后提高了图画剖析和计算机视觉使命的功能。

The Assistant Transformer Stream

其次，作者规划了一个根据轻量级视觉 Transformer 的辅助流。LightViT旨在捕捉不同标准图画块之间的长途特征依靠联系。详细而言，它由多个并行的轻量级 Transformer 块组成，这些块接纳不同标准的特征块作为输入。一切的 Transformer 块同享类似的结构，包含块嵌入层和 Transformer 编码层。

LightViT 的块嵌入层用于将输入的特征块转换为嵌入向量，将空间维度转换为序列维度。这样，每个特征块都能够被视为一个序列，并在 Transformer 模块中进行处理。接下来，Transformer 编码层用于对特征块进行自注意力机制的建模，以捕捉不同特征块之间的长程依靠联系。经过在 Transformer 模块中引进自注意力机制，LightViT 能够有效地对特征块之间的相互作用进行建模，然后提取图画的全局上下文信息。

LightViT 的规划使得网络能够在不同标准上捕捉图画块之间的长途特征依靠，然后提高了图画剖析使命的功能。因为选用了轻量级的 Transformer 块，LightViT 在坚持高效功能的一起，减少了模型的计算和存储开支。这使得 LightViT 成为一种适用于医学图画剖析等范畴的有效工具。

Boundary-Guided Decoder

鸿沟引导的解码器运用梯度运算符模块来提取远景方针的鸿沟信息。然后，经过鸿沟优化模块，将鸿沟增强特征与多级编码器的特征进行整合，旨在一起在特征空间中表征类内和类间的一致性，丰富特征的表征才能。这种办法能够使解码器在生成切割成果时更好地运用鸿沟信息，然后发生更精确的切割成果。

Boundary Enhanced Module (BEM)

鸿沟优化模块运用高档特征和初级特征作为输入，提取鸿沟信息并过滤掉与鸿沟无关的信息。为了完成这个方针，作者在水平方向 $G_{x}$ 和笔直方向 $G_{y}$ 上运用Sobel算子来获得梯度图。详细而言，本文选用两个 $333\times 3$ 的参数固定卷积，并运用步长为1的卷积操作。这两个卷积界说为：

然后，咱们将这两个卷积运用于输入特征图，得到梯度图 $M_{x}$ 和 $M_{y}$ 。接下来，梯度图经过 sigmoid 函数进行归一化，然后与输入特征图交融，得到增强边际特征图 $F_{e}$ ：

其间，圈号表明逐元素相乘， $\sigma$ 表明 sigmoid 函数， $M_{xy}$ 是将 $M_{x}$ 和 $M_{y}$ 沿通道维度进行拼接。然后，咱们便能够直接运用简单的堆叠卷积层将边际增强特征图进行交融。最后，输出特征图遭到GT 鸿沟图的监督，然后消除了物体内部的边际特征，发生鸿沟增强特征。

Boundary Inject Module (BIM)

上一步咱们经过 BEM 得到的鸿沟增强特征能够作为先验常识，改进编码器生成的特征的图画表明才能。紧接着，本文提出了 BIM，引进了双途径鸿沟交融计划，促进远景和布景特征的表明才能。详细而言，BIM 接纳两个输入：鸿沟增强特征与来自编码器网络的对应特征的通道级衔接，以及前一解码器层的特征。然后，这两个输入被馈送到 BIM 中，其间包含两个独立的途径，别离用于促进远景和布景的特征表明。关于远景途径，咱们直接沿通道维度将这两个输入进行拼接，然后运用一系列的 Conv-BN-ReLU（卷积、批归一化、ReLU激活）层，得到远景特征。关于布景途径，则规划了布景注意力组件，选择性地重视布景信息。

Loss Function

CTO是一个多使命模型，包含内部和鸿沟切割，本文界说了一个全体丢失函数来一起优化这两个使命：

全体丢失由主要的内部切割丢失 $L_{seg}$ 和鸿沟丢失 $L_{bnd}$ 组成。需求注意的是，在鸿沟检测丢失中，仅考虑来自 BEM 的猜测成果，该模块将编码器的高层特征图和低层特征图作为输入。至于主要图画切割丢失，作者选用了深监督策略，以获得来自解码器不同层级特征的猜测成果。

Interior Segmentation Loss

$L_{seg}$ 是穿插熵丢失 $L_{CE}$ 和均匀交并比 mIoU 丢失 $L_{mIoU}$ 的加权和：

Boundary Loss

鸿沟丢失 $L_{bnd}$ 考虑到鸿沟检测中远景和布景像素之间的类别不平衡问题，因而选用Dice丢失：

试验

本文将 CTO 与包含 U-Net、ResUNet、VNet、ViT、TransUNet和Swin-Unet在内的多个 SOTA 办法在以下几个主流的基准数据集进步行试验比对。

ISIC 2016 & PH2

CTO 在 Dice 系数上达到了 91.89%，在 IoU 上达到了 85.18%，别离比最先进办法高出 0.05% 和 0.88%。

ISIC 2018

经过 5 倍穿插验证，CTO 在 Dice 系数上达到了 91.2%，在 IoU 目标上达到了 84.5%，别离比最先进办法高出 1.8% 和 2.3%。此外，CTO 在 LiTS17 数据集上在Dice和IoU上别离达到了91.50%和84.59%，别离比最先进办法高出0.26%和0.45%。

CoNIC

3D MISeg

能够看出，在 BTCV 数据集上，CTO 在 Dice 上达到了 81.10%，在 HD 上达到了 18.75%，超过了最先进办法。尤其是在模糊鸿沟的器官上，如“胰腺”和“胃”，该模型在 Dice 上取得了明显的增益，别离为4.70%和3.60%。值得注意的是，CTO 在模型功率方面表现出色，具有可比较的 FLOPs 和参数，一起取得了竞争性的功能改进。

总结

本研讨提出了一种名为CTO的新型网络架构，用于医学图画切割。与先进的医学图画切割架构比较，CTO 在辨认精确性和计算功率之间取得了更好的平衡。本文的奉献在于运用中间特征图合成高质量的鸿沟监督掩模，而无需额定信息。经过在六个公开数据集进步行的试验，CTO 在功能上超越了最先进的办法，并验证了其各个组件的有效性。

CVHub是一家专注于计算机视觉范畴的高质量常识共享渠道，全站技能文章原创率达99%，每日为您呈献全方位、多范畴、有深度的前沿AI论文解决及配套的职业级运用解决计划，提供科研 | 技能 | 就业一站式服务，包括有监督/半监督/无监督/自监督的各类2D/3D的检测/分类/切割/跟踪/姿势/超分/重建等全栈范畴以及最新的AIGC等生成式模型。重视微信大众号，欢迎参加实时的学术&技能互动交流，领取CV学习大礼包，及时订阅最新的国内外大厂校招&社招资讯！

IPMI 2023 港科大陈浩团队新作 | CTO: 重新思考边界检测在医学图像分割中的作用

导读

布景

办法

Framework

Dual-Stream Encoder

The Mainstream Convolution Stream

The Assistant Transformer Stream

Boundary-Guided Decoder

Boundary Enhanced Module (BEM)

Boundary Inject Module (BIM)

Loss Function

Interior Segmentation Loss

Boundary Loss

试验

ISIC 2016 & PH2

ISIC 2018

CoNIC

3D MISeg

总结

相关文章

独立开发者的灵感周刊 DecoHack #011

如何用ChatGPT或Claude总结Youtube视频内容

AI壁纸号一周增加上千粉丝，轻松变现的成功案例分享

怎样检测函数执行是否卡顿 ？

作者信息

怎样检测函数执行是否卡顿？