继续创作,加速成长!这是我参与「日新方案 6 月更文挑战」的第29天,点击检查活动概况
-
【引证格局】:J. Li et al., “DRPL: Deep Regression Pair Learning for Multi-Focus Image Fusion,” in IEEE Transactions on Image Processing, vol. 29, pp. 4816-4831, 2020, doi: 10.1109/TIP.2020.2976190.
-
【开源代码】:github.com/sasky1/DPRL
一、瓶颈问题
1、依据Patch战略取得源图画聚集区域的办法的局限性
与空域交融办法类似,这些依据深度学习的办法首要将整个图画切割成巨细和步长固定的堆叠块,然后在这些块的基础上进行后续操作。这种依据patch的战略的一个局限性是很难对同时包括部分聚集和部分散焦像素的鸿沟区域进行分类。此外,这也适当耗时,由于源图画会生成大量的patch,与咱们的实时要求相去甚远。
2、依据全卷积网络的办法的局限性
[16]和[17]中的作者经过运用彻底卷积网络避免了依据patch的战略。但是,它们依然无法提取有价值的补充信息和多样化的练习集等,对交融图画的质量影响较差。
二、 本文奉献
1、An end-to-end architecture to convert each pixel into a binary code
提出了一种端到端的结构,将每个像素转换为二值编码,以确定它是聚集还是散焦。避免了patch分化,并大大加快了推理速度。
2、A pair learning strategy
引入了一种以互补源图画为输入并估量其对应的二值映射的配对学习战略,显着提高了交融图画的质量。
3、An edge-preserved technique and a structure similarity measurement
为了进一步提高交融图画的质量,在模型中嵌入了边际坚持技能和结构类似性衡量。
4、A synthetic multi-focus image dataset
运用各种具有挑战性的模板生成组成多聚集图画数据集。它由数千幅成对的图画以及相应的遮罩组成,使咱们能够更实践地练习网络。
5、Experimental results
在组成数据集和实在数据集上的试验成果表明,与现有的多聚集图画交融办法[6]、[9]、[14]、[18]-[21]比较,该办法是有效和优越的。
概括
本文提出了一种新的端到端办法,该办法包括数据生成、像素到像素回归、配对学习、结构类似性衡量和边际坚持,能够输入整个图画,猜测每个像素的从属度,并到达最先进的功能。
三、 解决方案
1、Objective Function
1)Regression Pair Learning
- 一般办法:
f(Ii)f(I_i)是分类器的输出值,MiM_i是 ground-truth masks,方针是最小化输出与标签的l1l_1间隔丢失
但是,它忽略了每对图画之间的联系。为了解决这个问题,引入配对学习
- 配对学习:充分运用每对图画之间的互补相关性
前两项来投影坐落相同方位上不同含糊等级的的像素为0或1,即使得输出f(Ii)f(I_i)趋近于0或1
第三项强制使成对的输出互相具有束缚,保证它们互相互补,并避免坐落两个源图画的相同方位上的像素被估量为相同的值。即使得两张图同一方位的像素能够分为不同类别
2) SSIM Measurement
为了进一步坚持生成图画和源图画之间的对应方位的结构类似性,一般运用结构类似性指数(SSIM):
SSIM∈[0,1]SSIM\in[0,1]越大,这两个图画之间的类似度就越高。
本文运用SSIM来衡量fused image与其ground truth reference之间的类似度
-
交融图画:
-
图a的二值图画:
-
图b的二值图画:
-
交融图画与Ground Truth图画SSIM丢失:
3) Edge Preservation
聚集的部分包括明晰的边际,而含糊的部分没有这一特点。
如图2所示,咱们能够看到,纹路细节确实存在于聚集部分的边际,但假如将该部分转换为滑润部分,则会丢失纹路细节。
因而,保留交融图画IfI_f的边际信息是合理的,该边际信息也存在于Ground Truth Reference IgI_g中。
- 梯度丢失核算如下:
- 添加梯度丢失,有助于避免深度卷积网络产生含糊图画
- 公式6能够经过pytorch的autograd strategy反向传达核算得到
4)总的丢失
2、 Training Data Generation
以往办法直接运用全聚集、全失焦图画练习分类器,这种操作与实践的场景相差甚远
-
图画来历: ImageNet Large Scale Visual Recognition Challenge 2012 (ILSVRC2012)
-
图画挑选:从ImageNet手动挑选1,040张全焦图画
-
图画裁剪:按照步长64将 256 256的源图画裁剪成9张巨细为128128的子图,总共9,360 张图
-
含糊办法: Gaussian filter (standard deviation of 1.5 and cut off of 7 7)
-
含糊等级:三个不同的含糊等级(含糊操作依次叠加)
-
构建掩码模板:手动制作二进制掩码(如图3所示)
-
构建图画对:随机挑选一个mask模板,生成多聚集图画对
-
组成数据集:9,360 3=28,080对(练习集: 20,000 pairs)
3、 Implementation
1)模型架构
左边为模型结构,右侧对应左边三种Block的详细结构。(此图为论文图画向左旋转90后的图画)
2) Training Details
略
4、 Discussion:与 CNN, MLFCNN, MFNet, FCN, and MLCNN办法比照
- 像素分类问题:
- CNN and MLFCNN:源图画划分红patch输入到分类器进行分类
- MFNet:经过类似性衡量直接得到patch的值
- 问题:难以对包括部分聚集像素和部分散焦像素两者的鸿沟区域进行分类
- DRPL:经过逐一像素的方式直接对源图画进行回归
- 生成决议计划图质量问题:
- FCN:两张图画单独猜测
- 问题:无法有效运用图画对的互补信息,生成的决议计划图质量较差,需求后处理,人工调参
- DRPL:配对学习战略(pair learning strategy)
- 生成交融图画战略:
- MLCNN:端到端生成交融图画、练习集仅包括全聚集和全散焦图画
- 问题:练习集不契合实践情况,输出的交融图画可能存在亮度和颜色失真的问题
- DRPL:运用猜测的决议计划图生成交融图画,练习集包括聚集区域和散焦区域的多聚集图画
四、 试验
1、试验设置
- 测验图画:组成数据集和实在数据集
- 比照办法:
- 组成图画的定性和定量成果:CNN [14], MFNet [18], CVT [20], DWT [19], ASR [6], CSR [21], and FPDE [9]
- 实在图画: CNN and MFNet (CNN-based办法仅有这两个办法有开源代码)
- 点评目标(实在图画):
- MutualInformation(MI)Mutual Information (MI):衡量从源图画到交融图画的信息量
- QAB/FQ^{AB/F} :衡量从源图画传输到交融图画的边际信息量
- AverageGradient(AG)Average Gradient (AG) :核算交融图画的梯度信息(细节和纹路)
- VisualInformationFidelity(VIF)Visual Information Fidelity (VIF) :依据人类的视觉系统来核算两个随机变量之间的失真
- EdgeIntensity(EI)Edge Intensity (EI) :测量图画的边际强度信息
2、 Experiments on Synthetic Images
1) Comparison With Conventional Fusion Methods
- 比照办法:CSR、FPDE、ASR、CVT、DWT和DRPL
- 比照成果:DRPL在细节保留上优于传统办法
2) Comparison With CNN Based Fusion Methods
- 比照办法:CNN、MFNet和 DRPL
- 定性点评成果:
- (第1、2行)当含糊部分在大范围内连续时,CNN、MFNet和DRPL取得了令人满意的成果。
- (第3行)当含糊部分较窄时,CNN和MFNet无法估量精确的掩模。随着掩模复杂度的不断添加,本文的DRPL办法得到的图画比CNN和MFNet办法得到的图画要好得多。【原因剖析:CNN和MFNet将图画切割成多个小块,直观地将只有一小部分含糊像素的块分配到聚集类别,导致功能下降。】
- (第4、5行)masks包括一些适当窄的线,这些线在每个贴片中只占很小的份额。因而,很简单遗失–将它们悉数归入一个类别。比较之下,DRPL专心于估量每个像素的含糊程度,能够有效地克服上述局限性,不管含糊部分或聚集部分只占很小的份额,都能取得满意的成果。
- 定量点评成果:下表列出了峰值信噪比(PSNR)和SSIM及其标准差值。显着,CNN和MFNet显着不如本文提出的办法
3、 Experiments on Real-World Images
- 测验数据集: Lytro
1) Comparison With Conventional Fusion Methods
-
比照办法:CSR、FPDE、ASR、CVT、DWT和DRPL
-
定性点评成果:
- CSR和FPDE:交融图画适当含糊
- ASR尽管能够取得比CSR和FPDE更明晰的图画,但它会导致颜色失真。
- 与CVT比较,咱们提出的**DRPL办法在获取细节方面具有更高的质量**。
- 与DWT比较,DRPL得到的交融图画在鸿沟上更加自然,契合人类的视觉感受,而DWT得到的交融图画遭到伪影的影响。
-
定量点评成果:
- DRPL在所有目标上都取得最佳功能
- 从各个目标比照能够看出DRPL办法的功能远超传统办法和现有的CNN-based办法
2) Comparison With CNN Based Fusion Methods
- 比照办法:CNN、MFNet和DRPL
- 定性点评成果:
- 图8显现了由CNN、MFNet和DRPL取得的多个源图画对及其交融图画,并且在这些示例中还提取了扩大区域。
- DRPL能够合并纹路更明晰的图画,而CNN和MFNet在扩大区域中十分含糊。【剖析:在这种情况下,源图画中的聚集或散焦部分十分离散和狭隘,这添加了聚集/散焦估量的难度。关于CNN和MFNet,它们经常在图画块中包括部分网格,这很难做出精确的估量。但是,DRPL不是依据面片的分类,而是直接将每个像素转换为其相应的遮罩元素,以避免遭到焦点和散焦方位的影响。】
- 此外,图8中的其他示例也显现了**DRPL的优越性,尤其是在聚集和散焦区域之间的鸿沟周围**。
- 图9还示出了对应于图8中的交融图画的掩码。关于这四个项中的每一个,它们别离表明由CNN取得的未经后处理的掩码、由CNN经后处理取得的掩码、由MFNet经后处理取得的掩码和由DRPL取得的掩码。
- 在赤色块中,能够看到CNN未能对一些像素进行分类。尽管后处理能够处理一些过错的小区域,但它也**会过错地将一些精确分类的区域转换为过错的区域**,如第一个赤色块所示。
- 从绿色块能够很简单地观察到,本文提出的办法**DRPL也能够比CNN更精确地估量鸿沟**。
- MFNet不仅对一些类似于CNN的小区域进行了过错分类,而且聚集区域和散焦区域之间的鸿沟也很粗糙。
- 图8显现了由CNN、MFNet和DRPL取得的多个源图画对及其交融图画,并且在这些示例中还提取了扩大区域。
- 定量点评成果:
- 对与图8对应的交融图画的定量点评列于表III
- 与其他依据CNN的战略比较,DRPL在大多数情况下在AGAG、VIFVIF和EIEI上实现了更好的功能。
- 关于MIMI和QAB/FQ^{AB/F},本文办法得到的成果也与CNN和MFNet得到的成果具有竞争性。
-
表IV进一步点评了Lytro数据集上各种办法取得的五个目标的平均值。
- 与传统的交融办法包括CSR、FPDE、ASR、CVT和DWT比较,所有目标都有显着提升。
- 关于依据深度学习的CNN和MFNet办法,尽管DRPL在MI上略逊于它们,但在其他目标上取得了最好的功能,证明了其有效性。
-
本文还对另外两个实在数据集进行了进一步的试验:Saeedi和Faez[52]]以及Savic和Z.Babic[53]。图10显现了几个示例以及Lytro数据会集的另外两对示例。
- 能够看到DRPL与CNN和MFNet比较取得了更好的功能。特别是,鸿沟区域周围有显着的改进,这证明了本文提出的办法的鲁棒性和优越性。
试验总结
-
与实在图画比较,DRPL在组成图画上取得了更显着的改进。主要原因是练习数据的散布与组成测验图画的散布简直彻底类似,由于它们都是经过跟从数据生成而生成的。事实上,与其他现有的依据深度学习的图画交融办法类似,选用组成图画作为练习集是一种普遍的战略,由于很难取得实在世界中的多聚集图画的地面实在。然后将对组成图画练习的模型运用于交融实在世界的图画。
-
尽管本文提出的数据生成办法旨在使生成的数据多样化,但实践数据和组成数据之间依然存在差异。这便是为什么**实在世界图画的改进没有组成图画那么显着**的原因。
-
与现有的CNN、MFNet、CVT、DWT、ASR、CSR和FPDE等办法比较,本文提出的办法DRPL在交融图画的定性和定量点评目标上依然坚持了优势。
4、Model Analysis
1) Objective Function Analysis
- 意图:证明配对学习、SSIM衡量和边际坚持对取得高质量的DRPL交融图画做出了奉献
- 试验成果:
- 试验剖析:
- 当配对学习战略从咱们的结构中移除时,所提出的办法会出现很大的功能下降,这表明了该战略的重要性。
- 从case3和case4能够看出**SSIM和边际坚持战略都有利于咱们的多聚集图画交融使命**
2) Parameter Analysis
- 意图:为了进一步证明1、2和3的影响
- 从Tab.V看看到 L1起着关键作用,而L2和L3对功能改进的奉献类似,但很小。
- 为了减少参数调整工作量并且不丢失通用性,设置设置2=3,以使SSIM丢失的重要性等于梯度丢失的重要性。
- 为了测验三个超参数的最优值,别离固定2/3为0.1并从{0.001、0.01、0.1、0.4、0.8、1.2、1.6、2}中挑选1。类似地,固定1为0.8,2/3从{0,0.001,0.01,0.1,0.5,1,1.5,2}中挑选。
- 试验成果表明:当1和2/3在[0.8,2]和[0.01,2]中时,DRPL能够取得鲁棒功能。因而,本文试验依据经历将1、2和3别离设置为0.8、0.1和0.1
3) Loss Function Analysis
- 试验办法:将l1l_1替换为CECE(穿插熵丢失)
- 试验成果:L1L_1略优于CECE,表明本文提出的办法是适当稳健的不同类型的丢失函数
4) Network Analysis
- 意图:剖析 residual blocks数量的合理性、模型第一层选用99卷积的重要性
- 试验成果:
- 网络缩短(减少residual blocks)时,会导致功能下降。随着剩余块数的添加,DRPL满意鲁棒功能,为了在时刻复杂度和功能之间取得平衡,本文将esidual blocks的数量设为12
- 将其替换为3 3,能够看到DRPL在PSNR上有显着的下降,这说明了9 9巨细的kernel在第一层的重要性。
5) Time Cost Analysis
- 布景;与CNN和MFNet将整个图画切割成大量面片,从而在测验阶段给出一对源图画时添加时刻本钱不同,DRPL直接将整个图画输入到全卷积网络中,进行像素到像素的回归,大大降低了核算复杂度。
- 试验成果:表IX列出了“Lytro”数据集的平均时刻本钱,能够看到DRPL的时刻本钱大约是CNN和MFNet的1/3倍。
6) Data Generation Strategy Analysis
- 布景:不同于现有的依据深度学习的多聚集图画交融办法只运用全焦或全含糊的斑块作为输入,本文提出的办法生成的组成图画既有聚集部分又有散焦部分,更具实用性和挑战性。
- 试验办法:将输入图画(混合有聚集和散焦部分)替换为全焦或全离焦图画
- 试验成果:
- 移除混合多聚集图画,功能会下降,这证明了咱们的组成数据生成战略的有效性。【DRPL-only较差的原因是练习图画太简单,无法强制网络学习含糊部分和聚集部分之间的差异。】
- 试验中发现DRPL-only很简单**过拟合**,这相对证明了咱们的数据生成办法的重要性。
7) Post-Processing Analysis
- 布景:CNN和MFNet经过进行小区域删去和引导过滤操作来进行后处理。他们首要运用一致性验证从初始掩码中移除小区域,在初始掩码中能够依据预定义的阈值手动调整比率。尽管此步骤提高了聚集或散焦区域的一致性,但由于在一些正确的小区域填充了不希望的值,因而**会导致一些过错分类,如图9中的masks所示。此外,由于阈值是手动调整的,而现实世界的图画具有很大的多样性,因而很难挑选最佳阈值,添加了实践运用的难度。此外,在去除小区域之后,后处理将运用引导滤波器来滑润鸿沟,这可能含糊交融图画中的鸿沟部分**,这能够在图8中验证。
- 试验成果:对运用和未运用后处理的DRPL办法的成果进行比照。(试验中十分细心地调整了引导滤波器中的参数,以实现聚集/散焦一致性和鸿沟含糊之间的平衡)
- 图12给出了组成图画和实在图画的两个典型示例。尽管DRPL估量的掩模会遇到一些误分类的部分,但大多数都在滑润的布景中,颜色和纹路变化很小,对交融图画的影响很小。
- 在后处理之后,在鸿沟周围的像素会变得含糊。表XI列出了这两个示例的定量点评。这相对地反映出,关于DRPL来说,后处理对咱们的交融使命没有奉献。
五、其他
1、总结
本文提出了一种新的用于多聚集图画交融的深层结构。该办法不需求将图画切割成大量的面片并依据分类估量这些patches的含糊程度,而是经过像素到像素的回归,将整个图画直接映射到一个掩模上,这有利于在鸿沟区域取得更高的质量并加快前进的步伐。
- 本文的网络运用pair learning来有效地学习每对源图画之间的互补信息。
- 此外,咱们还引入了SSIM measure和edge preservation,不仅使生成的图画在结构上与ground-truth参考类似,而且保留了更多的纹路细节。
- 在组成数据集和实在数据集上进行的试验成果证明了该办法的有效性,以及pair learning、SSIM measure和edge preservation的重要性。