欢迎重视『CVHub』官方微信大众号!
Title: A Permutable Hybrid Network for Volumetric Medical Image Segmentation
PDF: arxiv.org/pdf/2303.13…
Code: coming soon…
CVHub导读
近年来,VIT
(Vision Transformer)在3D医学图画切割中取得了实质性发展,与此同时,多层感知器MLP
(Multi-Layer Perceptron)网络由于其与VIT
具有相当性的成果而从头受到研讨人员的喜爱。本文提出了一种用于3D医学图画切割的混合网络PHNet
,它运用了卷积神经网络CNN
和MLP
的长处,经过运用2D和3D CNN
提取部分信息,处理了3D volume 数据内涵的各向同性问题;此外,本文还提出了一种高效的多层置换感知器模块MLPP
,它经过保存方位信息来增强原始的MLP
,并取得长程距离依靠。经过在两个公共数据集COVID-19-20和Synapse上的试验成果标明,本文所提出的PHNet
办法优于最先进的SOTA办法。
引言
卷积神经网络的发展极大推动了核算机辅佐确诊CAD
(Computer-aided diagnosis)功能,尤其是在医学图画切割方向。其间最受欢迎的医学图画切割结构当属U-Net
,它以编码-解码结构和经典的跳跃衔接不只捕获了图画丰厚的语义信息,还极大坚持了医学图画的空间细节信息。继U-Net
之后,多个优秀的变种相继呈现,比方ResUNet
,Y-Net
和N-Net
等。
随后,根据留意力机制的Transformer
在自然语言处理范畴大火。以核算机视觉范畴为代表的Transformer
网络VIT
架构频频霸榜,在各类核算机视觉使命上都展现出了比CNN
架构更先进的功能。鉴于Transformer在自然图画识别使命方面的显着发展,许多研讨人员现已研讨了各种神经网络在医学图画切割方面的有用性。例如,TransUNet
提出在U-Net体系结构的瓶颈处运用Transformer进行大局信息通讯。相同,UNETR
和CoTr
规划了一个层次化的Transformer和CNN架构进行融合也取得了不错的精度。
Transformer
大法当然好,但其内涵的自留意力机制产生的巨大核算量一直是一个诟病(这一点极大约束了该架构在工业界的推广运用),尤其是在3D医学图画数据中。
因而,根据多层感知器MLP
的办法在研讨界从头引起了兴趣,由于它现已展现出了与CNN
和Transformer
架构相当的功能,而不需要沉重的自我留意机制。例如,MLP-Mixer
经过一系列MLP能够完成特征间的信息沟通,以捕获输入数据中的久远距离依靠。但是,MLP
在3D医学图画切割方面的有用性仍然缺乏研讨。
为此,本文将CNN
和MLP
相结合,提出了一种新的混合网络PHNet
,以完成准确的3D医学图画切割。PHNet
选用编码器-解码器结构,其间编码器运用2.5D CNN
结构,能够运用医学图画固有的等向性,并经过捕获不同方向上体积医学图画的改变信息密度来防止浅层损失信息。论文进一步提出了MLPP
,一种能够在核算功率高的情况下坚持方位信息并集成大局相互依靠性的多层摆放感知器模块。为了进步核算功率,引入了令牌token
组操作,能够高效地在令牌级别上聚合特征映射,然后减少所需的核算量。本文初次提出将CNN
和MLP
进行结合,并运用于3D医学图画切割。经过在两个揭露数据集上的评估试验(COVID-19肺CT病灶切割挑战赛2020(COVID-19-20)和Synapse多器官切割),证明了PHNet
表现均优于当前最先进的SOTA
办法,并超越了MICCAI Covid-19-20挑战赛的冠军!
办法
如上图2所示PHNet
整体思路十分简单:选用编码器-解码器架构,编码器由两个首要组件组成:2.5D卷积模块和多层置换感知器(MLPP)模块。2.5D卷积阶段提取部分特征,输出的特征图传递给MLPP
模块以学习大局特征。解码器对分层特征进行处理以进行终究预测。
2.5D Convolution
本文经过引入卷积层来提取部分特征,这是根据先前关于医学图画剖析误差的研讨和3D体积医学图画的各向异性实质而得出的定论。3D体积图画如CT和MRI扫描常常由于其厚切片扫描而受到各向异性问题的影响,导致高面内IP
分辨率和低面外TP
分辨率,这种差异在COVID-19-20中特别明显,其IP
分辨率平均为0.74mm,而TP
分辨率仅为5mm。为了处理这一问题,本文运用2D卷积块来捕获IP信息,直到特征在三个轴面(横断、冠状和矢状)上构成近似均匀的分辨率,然后运用3D卷积块来处理体素信息。每个编码器层由两个残差卷积块组成,每个块包含两个次序的Conv-IN-ReLU
操作。
Multi-Layer Permute Perceptron (MLPP)
尽管卷积神经网络(CNN)经过深层堆叠卷积层能够建模长距离依靠关系,但研讨标明:根据多层感知器MLP
的网络在学习大局上下文方面更有用。 因而本文规划了MLPP
模块(如上图2b所示)用以提取深层的大局信息。MLPP
模块按次序分化平面内IP
特征和笔直方向TP
特征的练习。作者分别将这两个块称为IP-MLP
和TP-MLP
。为了完成跨轴令牌之间的通讯,作者还在IP-MLP
中提出了一个辅佐留意力分支,称为AA-MLP
。具体细节如下:
IP-MLP
常见的根据多层感知机MLP
的办法将输入特征图直接展平成一维向量,这会导致卷积特征中的空间信息丢掉。为了处理这个问题,作者提出了一种称为轴向分化的办法,在水平轴、笔直轴和通道轴上分别对输入特征进行独自处理,然后在编码某个轴向信息时保存其他轴向的准确方位信息。
为了平衡远距离交互和核算成本,并减轻图画分辨率灵敏性问题,作者还提出了一种称为token切割的操作,将特征向量切割成多个token,这些token能够被后续的全衔接层高效处理。作者以水平轴为例,将输入特征沿水平方向分红不堆叠的段,然后将每个段再分红多个不堆叠的通道组,其间每个组有g = C/L个通道。接下来,作者将每个分段展平并运用一个全衔接层将RLgR_{Lg}映射到RLgR_{Lg},然后得到一个新的特征向量YikY_i^{k}。最终,将一切分段从头摆放,得到YHY_H、YWY_W和YCY_C三个特征向量,它们分别代表沿笔直,水平和通道方向的编码信息。这些特征向量经过逐元素求和后,被送入一个新的全衔接层,得到终究的输出YIPY_{IP},其间W∈RCCW \in R^{CC}是全衔接层的权重矩阵。
AA-MLP
本文提出的IP-MLP
模块有两个约束,可能会损害切割功能。首要,轴向分化截断了不在相同水平或笔直方位的令牌之间的直接交互。其次,与vanilla MLP比较,令牌切割操作的部分接收字段较小。为了处理这些约束,作者规划了一个辅佐分支,以完成轴内令牌通讯,并经过轻量级但有用的类MLP
架构充当留意力函数。具体来说,给定输入的特征图 X∈RHWCX\in \mathbb{R}^{H\times W\times C},将XX划分为非堆叠的窗口,窗口巨细设置为LL,因而得到Xi∈RLLX_i \in \mathbb{R}^{L\times L},其间i∈1,…,HWC/L2i \in {1,\dots,HWC/L^2}。然后运用一个FC矩阵W∈RL2L2W \in \mathbb{R}^{L^2\times L^2}来转化每个窗口,并得到Yi∈RLLY_i \in \mathbb{R}^{L\times L}。经过将一切窗口摆放回原始尺寸,终究得到留意力图YA∈RHWCYA\in \mathbb{R}^{H\times W\times C}。最终,经过YIPY_{IP}和YAY_A的残差留意力得到IP-MLP的特征映射FIPF_{IP}
其间 ⊙\odot 表明逐元素相乘。
TP-MLP
经过IP-MLP获取了平面内的信息后,接下来运用TP-MLP来捕捉长时间的沿平面笔直方向的特征。相同地,对于输入的特征映射FIP∈RHWDCF_{IP} \in \mathbb{R}^{H \times W \times D \times C},咱们首要沿深度维度将X=FIPX=F_{IP}划分为长度为L的不堆叠的片段。这样咱们取得了Xi∈RLCX_i \in \mathbb{R}^{L \times C},其间i∈1,…,HWDLi \in {1,…,\frac{HWD}{L}}。接下来,咱们将X沿通道维度分为几个不堆叠的组,每组有g=C/L个通道,然后得到Xki∈RLgX_{ki} \in \mathbb{R}^{L \times g},其间k∈1,…,C/gk \in {1,…,C/g}。然后,咱们将每个段展平并经过全衔接层将RLg\mathbb{R}^{L \times g}映射到RLg\mathbb{R}^{L \times g},得到YikY_{i}^k。最终,咱们将一切Yik∈RLgY_{i}^k \in \mathbb{R}^{L \times g}的段从头摆放到原始维度,并输出FTP∈RHWDC\mathrm{F_{TP}} \in \mathbb{R}^{H \times W \times D \times C}。
Decoder
本文的解码器选用纯CNN架构,运用转置卷积逐步上采样特征映射以匹配输入图画分辨率。在上采样进程之后,运用残差卷积块来细化特征映射。为了进一步进步切割准确性,作者在编码器和解码器之间包含跳跃衔接,允许保存low-level
的细节信息。
试验成果
::: block-1
(a)作者对不同结构的组合进行了功能比较,包含在浅层和深层运用 Conv、Attention 和 MLP 的不同组合。其间Conv 和 MLP 运用了与 PHNet 相同的模块,Attention 运用了 Swin Transformer block 并将窗口巨细设置为分段长度以进行公正比较。成果显现,在浅层运用 Conv 和在深层运用 MLP 的组合能够取得最佳功能,这与作者的观点相符,即 Conv 拿手提取部分特征,而 MLP 更有用地模拟长程依靠。
(b)作者还比较了不同 MLP 规划的功能,包含 MLP-Mixer(M)、ShiftMLP(S) 和 WaveMLP(W)。作者仅将 PHNet(P)中的 MLPP 模块替换为其他模块以进行公正比较。成果标明,所提出的结构分别在 Dice 指标上取得了 2.15%、1.85% 和 0.45% 的改善,证明了本文规划的良好功能。
(c)作者还研讨了不同分段长度 L 对功能的影响。具体地,将分段长度设置为宽度(W)的不同份额,即 1、1/2、1/3 和 1/4。这有利于不同巨细的感兴趣区域(ROI)。成果显现,当 L = 1/2 W 时,功能最佳。
(d)最终,作者研讨了 MLP 层数的影响。成果标明,在 MLP 层数为 2 时,功能最佳。
:::
定论
本文提出了一种新的可置换混合网络PHNet
,用于3D体积医学图画切割使命。PHNet
集成了2D CNN、3D CNN和MLP,以完成部分和大局特征的提取和集成。此外,本文还引入了一个可置换的MLP块,以处理空间信息丢掉问题并最小化核算负担。经过在两个公共数据集上进行的广泛试验证明,所提出的办法优于现有的SOTA办法。结合不同使命的特色,考虑精度与核算负载问题,体系地研讨CNN、Transformer和MLP之间的功率、有用性和交互作用,会是一个不错的idea。
如果您也对人工智能和核算机视觉全栈范畴感兴趣,强烈推荐您重视有料、风趣、有爱的大众号『CVHub』,每日为大家带来精品原创、多范畴、有深度的前沿科技论文解读及工业成熟处理方案!欢迎增加小编微信号: cv_huber,备注””,加入 CVHub 官方学术&技术沟通群,一起讨论更多风趣的论题!