前言

医学范畴的数据集具有标示样本少、图画非天然的特色,transformer现已证明了在天然图画范畴下的成功,而能否应用于医学范畴等少量标示样本的非天然图画范畴呢?

本文研讨比较了CNN和ViTs在三种不同初始化战略下在医学图画使命中的体现,研讨了自监督预练习对医学图画范畴的影响,并得出了三个定论。

本文来自大众号CV技能攻略的论文共享系列

重视大众号CV技能攻略 ,专心于核算机视觉的技能总结、最新技能盯梢、经典论文解读。

ICCV2021 | 医学影像等小数据集的非自然图像领域能否用transformer?

代码:github.com/ChrisMats/m…

Background

现在现已提出了许多使transformers适应视觉使命的办法。在天然图画范畴,transformers已被证明在规范视觉使命(如ImageNet分类、以及方针检测和语义切割)上优于CNN。与卷积比较,transformers的中心注意力机制供给了几个要害的优势:(1)它捕获长途联系,(2)它具有经过动态核算的self-attention权重(捕获Tokens之间的联系)进行自适应建模的才能,(3)它供给了一种内置的突显性,使人们能够洞察模型重视的是什么。

然而,有依据标明,vision transformer需求非常大的数据集才能逾越CNN中,只要当谷歌的3亿张私人图画数据集JFT-300M用于预练习时,ViT的优点才变得明显起来。他们对这种规划的数据的依赖是transformers广泛应用的障碍。这个问题在医学成像范畴特别严峻,那里的数据集较小,而且往往伴随着不太牢靠的标签

CNN和ViTs一样,在数据稀缺时功能较差。规范的解决计划是运用搬迁学习:通常,模型在较大的数据集(如ImageNet)上预先练习,然后运用较小的、专门的数据集针对特定使命进行微调。在ImageNet上预先练习的CNN通常在最终功能和削减的练习时刻方面都优于那些在医学范畴从头开始练习的CNN。

自监督是一种处理未符号数据的学习办法,最近得到了广泛的重视。研讨标明,在微调前对方针域中的CNN进行自监督预练习能够进步功能。ImageNet的初始化有助于自监督CNN更快地收敛,通常具有更好的预测功能。

这些处理医学图画范畴缺少数据的技能已被证明对CNN有效,但尚不清楚vision transformer是否也有类似的优点。一些研讨标明,运用ImageNet对CNN进行医学图画分析的预练习并不依赖于特征复用(feature reuse)(遵从传统观念),而是由于更好的初始化和权重调整。这让人质疑transformers是否能从这些技能中获益。假如他们这样做了,简直没有什么能阻止ViTs成为医学图画的主导架构

在这项作业中,论文探索ViTs是否能够很容易地替代CNN用于医学成像使命,以及这样做是否有优势。论文考虑一个典型从业者的用例,它配备了有限的核算预算和拜访传统医学数据集的权限,着眼于“即插即用(plug-and-play)”的解决计划。为此,论文在三个干流的公开数据集进步行了试验。

经过这些试验,得出以下定论:

  • 在ImageNet上预先练习的ViTs在数据有限的状况下体现出与CNN相当的功能。

  • 在应用规范练习计划和设置时,搬迁学习有利于ViTs。

  • 当自监督的预训之后是监督的微调时,ViTs的体现要好于CNN。

这些发现标明,医学图画分析能够从CNN无缝过渡到ViTs,一起获得更好的可解释性特性。

Methods

论文查询的首要问题是ViTs是否能够作为CNN的即插即用替代品用于医疗诊断使命。为此,进行了一系列试验,以比较ViTs和CNN在类似条件下的差异,将超参数调整保持在最低限度。为了确保比较的公正性和可解释性,挑选了具有代表性的ResNet50,以及带有16×16 Tokens的Deit-S作为ViT。之所以挑选这些型号,是由于它们在参数数量、内存需求和核算方面具有可比性。

如上所述,当数据不太丰厚时,CNN依赖初始化战略来进步功能,医学图画就是这种状况。规范的办法是运用搬迁学习-用ImageNet上预练习的权重来初始化模型,并在方针域上微调。

因此,论文考虑了三种初始化战略:(1)随机初始化权重,(2)运用监督ImageNet预练习权值的搬迁学习,(3)在方针数据集上的自监督预练习,在初始化之后,如(2)所示。将这些战略应用于三个规范医学成像数据集,以掩盖不同的方针域:

APTOS 2019-在此数据会集,使命是将糖尿病视网膜病变图画分类为5类疾病严峻程度。Aptos 2019包括3662张高分辨率视网膜图画。

ISIC 2019-使命是将25,333张皮肤镜图画从九种不同的皮肤损害诊断类别中分类。

CBIS-DDSM-此数据集包括10,239张乳房X光照片,使命是检测乳房X光照片中是否存在肿块。

Experiments

ICCV2021 | 医学影像等小数据集的非自然图像领域能否用transformer?

CNN与ViTs在不同初始化战略下的比较

1. 随机初始化的transformer有用吗?

首先将Deit-S与具有随机初始化权重的ResNet50进行比较(Kaiming初始化)。上表中的成果标明,在这种设置下,CNN在一切方面都远远超过ViTs。这些成果与之前在天然图画范畴的观察成果共同,在天然图画范畴,在有限数据上练习的ViTs体现优于类似巨细的CNN,这一趋势被归因于ViT缺少概括误差。由于大多数医学成像数据集的巨细适中,随机初始化的ViTs的用途好像是有限的

2. ImageNet上的预练习transformer在医学图画范畴作业吗?

在医学图画数据集上,随机初始化在实践中很少运用。规范过程是经过用ImageNet预先练习的权重初始化网络,然后对来自方针域的数据进行微调来练习CNN。在这里,论文查询了这种办法是否能够有效地应用于ViTs。为了测验这一点,论文运用已在ImageNet上以完全监督的办法预先练习的权重来初始化一切模型。然后,运用上述过程进行微调。

上表中的成果标明,CNN和ViTs都从ImageNet初始化中获得了显著的优点。事实上,ViT好像受益更多,由于它们的体现与CNN平起平坐。这标明,当运用ImageNet进行初始化时,CNN能够用ViTs替代,而不会影响运用中等巨细练习数据的医学成像使命的功能

3.医学图画范畴的transformer运用自监督是否有益?

最近的自我监督学习计划,如Dino和BYOL,都选用监督学习的办法。此外,假如将它们用于预练习和有监督的微调,它们能够到达新的SOTA。虽然这一现象在较大的数据系统中现已在CNN和ViTs中得到证明,但现在还不清楚ViTs的自我监督预练习是否有助于医学成像使命,特别是在中等和低尺寸数据上。

为了验证这一点,论文选用了Dino的自监督学习计划,该计划能够很容易地应用于CNN和ViTs。Dino运用自蒸馏(self-distillation)来鼓舞学生和教师网络在不同的扩充输入的状况下产生类似的标明。自监督预练习从ImageNet初始化开始,然后按照原论文作者建议的默认设置对方针医疗范畴数据应用自我监督学习-除了三个小的变化:(1)根本学习率设置为0.0001,(2)初始权重衰减设置为10‘5,并运用余弦进度表增加到10’4,以及(3)运用的均方根均值为0.99。CNN和ViTs运用相同的设置;两者都运用256的批次巨细进行了300个周期的预练习,然后进行了微调。

上表中陈述的成果显示,ViTs和CNN在自监督的预练习中都体现得更好。在这种状况下,ViTs的体现好像优于CNN,虽然距离很小。对天然图画的研讨标明,VITS和CNN之间的距离将随着更多的数据而扩展

Conclusion

本文研讨比较了CNN和ViTs在三种不同初始化战略下在医学图画使命中的体现。研讨了自监督预练习对医学图画范畴的影响。

成果标明,ViTs和CNNS的改善起伏很小,但持续不变。虽然运用自监督ViTs获得了最佳的整体功能,但风趣的是,在这种低数据区域中,我们还没有看到有利于从前在具有更多数据的天然图画范畴中陈述的ViTs的强大优势,例如在中,由于专家标示的本钱,很少有大的符号的医学图画数据集,但是可能搜集很多未符号的图画。这标明,这是一个诱人的时机,能够将自监督应用于大型医学图画数据集,其间只要一小部分被符号。

总结发现,对于医学图画范畴:

  • 正如预期的那样,假如简单地从头开始练习,在低数据制度下,ViTs比CNN更糟糕。

  • 搬迁学习弥合了CNN和ViTs之间的功能距离;功能类似。

  • 经过自监督的预练习+微调获得最佳功能,ViTs与同类CNN比较略有优势。

欢迎重视大众号 CV技能攻略 ,专心于核算机视觉的技能总结、最新技能盯梢、经典论文解读。

ICCV2021 | 医学影像等小数据集的非自然图像领域能否用transformer?​​

其它文章

ICCV2021 | Vision Transformer中相对位置编码的反思与改善

ICCV2021 | TransFER:运用Transformer学习联系感知的面部表情表征

2021-视频监控中的多方针盯梢总述

一致视角了解方针检测算法:最新进展分析与总结

图画修复必读的 10 篇论文 | HOG和SIFT图画特征提取简述

全面了解方针检测中的anchor | 实例切割总述总结归纳收拾版
单阶段实例切割总述 | 小方针检测的一些问题,思路和计划

方针检测中回归损失函数总结 | 小方针检测常用办法总结

视觉Transformer总述 | 2021年小方针检测最新研讨总述

Siamese network总述 | 姿势估量总述 | 语义切割总述

CVPR2021 | SETR: 运用 Transformer 从序列到序列的视点从头考虑语义切割

深度学习模型巨细与模型推理速度的探讨

视频方针检测与图画方针检测的区别

CV算法工程师的一年作业经验与感悟

视频了解总述:动作辨认、时序动作定位、视频Embedding

从CVPR 2021的论文看核算机视觉的现状

ICCV2021 | MicroNet:以极低的 FLOPs 改善图画辨认

ICCV2021 | 深度了解CNN

ICCV2021 | 从头考虑视觉transformers的空间维度

CVPR2021 | TransCenter: transformer用于多方针盯梢算法

CVPR2021 | 敞开国际的方针检测

CVPR2021 | TimeSformer-视频了解的时空注意模型

CVPR2021 | 一个高效的金字塔切分注意力模块PSA

CVPR2021 | 特征金字塔的新办法YOLOF

经典论文系列 | 从头考虑在ImageNet上的预练习

经典论文系列 | Group Normalization & BN的缺陷

经典论文系列 | 方针检测–CornerNet & anchor boxes的缺陷

经典论文系列 | 缩小Anchor-based和Anchor-free检测之间距离的办法:自适应练习样本挑选