即插即用系列 | PromptIR:MBZUAI提出一种基于Prompt的全能图像恢复网络

即插即用系列 | PromptIR:MBZUAI提出一种基于Prompt的全能图像恢复网络

Title: PromptIR: Prompting for All-in-One Blind Image Restoration
PDF: arxiv.org/pdf/2306.13…
Code: github.com/va1shn9v/pr…

导读

图画康复是从其受损版本中康复高质量明晰图画的进程。根据深度学习的办法明显提升了图画康复功能,但是,它们在不同类型和等级的退化上的泛化能力有限。这约束了它们在实际运用中的运用,由于需求针对每种详细的退化进行独自练习模型,并了解输入图画的退化类型才能运用相应的模型。本文介绍了一种根据提示的学习办法,称为PromptIR,用于万能图画康复,可以有用地从各种类型和等级的退化中康复图画。详细而言,本文办法运用提示来编码退化特定信息,并动态引导康复网络。 这使得咱们的办法可以推行到不同类型和等级的退化,并在图画去噪、去雨和去雾方面取得了最先进的成果。总的来说,PromptIR供给了一个通用且高效的插件模块,只需少量轻量级提示即可用于康复各种类型和等级的受损图画,无需事前了解图画中存在的损坏信息。

引言

在图画获取进程中,常常会出现各种退化现象,如噪声、模糊、雾霾、雨水等,这些问题通常是由于相机的物理约束或环境条件不合适导致的。根据深度神经网络的办法在解决图画康复问题时有不同的办法。一些办法在网络中引进了显式的使命特定常识来处理相应的康复使命,如降噪、去模糊和去雾。但是,这些办法在特定的退化类型和程度之外缺少泛化性。因此,迫切需求开发一种可以有用康复各种类型和程度的退化图画的一体化办法。

最近的一种办法AirNet,经过选用对比学习范式解决了一体化康复使命。这涉及练习一个额外的编码器来区别各种类型的图画退化。尽管AirNet取得了最先进的成果,但它在建模不同污染类型的完全解耦表明方面存在困难。此外,运用附加的编码器进行对比学习会导致更高的练习担负,由于需求两阶段的练习办法。

::: block-1

即插即用系列 | PromptIR:MBZUAI提出一种基于Prompt的全能图像恢复网络

PromptIR提出了一个即插即用的提示模块,它隐式地预测与退化条件相关的提示,以引导具有未知退化的输入图画的康复进程。来自提示的辅导被注入到网络的多个解码阶段,其间包含少量可学习参数。这样可以学习一个万能的一致模型,可以在多个图画康复使命(如去除雨水、去雾和降噪)中表现出色。 :::

为了克服这些挑战,本文提出了一种根据提示学习的办法来执行一体化图画康复。该办法利用提示(一组可调参数),用于编码关于各种图画退化类型的重要区别信息(如下图2所示)。经过将提示与主康复网络的特征表明相互作用,咱们动态地增强表明,以取得具有退化特定常识的适应性,这种适应性使网络可以经过动态调整其行为有用地康复图画。

::: block-1

即插即用系列 | PromptIR:MBZUAI提出一种基于Prompt的全能图像恢复网络

该图显现了在PromptIR和最先进的AirNet中运用的退化嵌入的tSNE图。不同的颜色表明不同的退化类型。每个使命的嵌入更好地集合在一起,显现了提示符号学习具有区别性的退化上下文的有用性,然后有助于康复进程。 :::

本文首要亮点包含:

  • 本文提出了一种根据提示的一体化康复结构PromptIR,它仅依赖于输入图画来康复明晰图画,而不需求任何关于图画中存在的退化的先验常识。
  • 本文提示块是一个可轻松集成到任何现有康复网络中的插件模块。它由提示生成模块(PGM)和提示交互模块(PIM)组成。提示块的方针是生成与输入条件相关的提示(经过PGM),这些提示具有有用的上下文信息,以辅导康复网络(经过PIM)有用地消除输入图画中的损坏。
  • 本文实验证明了PromptIR的动态适应行为,在包含图画降噪、去雨和去雾在内的各种图画康复使命上完成了最先进的功能。

办法

::: block-1

即插即用系列 | PromptIR:MBZUAI提出一种基于Prompt的全能图像恢复网络

PromptIR办法在编码和解码阶段运用了UNet网络架构,其间包含了Transformer块。该结构的首要组件是提示块,由两个模块组成:提示生成模块(PGM)和提示交互模块(PIM)。提示生成模块运用输入特征Fl和提示组件生成与输入条件相关的提示P。然后,提示交互模块经过Transformer块运用生成的提示动态调整输入特征。提示与解码器特征在多个等级交互,以丰富特定于退化的上下文信息。 :::

PromptIR运用提示块来生成可学习的提示参数,并在康复进程中利用这些提示来辅导模型。结构经过逐级编码器-解码器将特征逐步转换为深层特征,并在解码器中引进提示块来辅佐康复进程。提示块在解码器的每个等级中连接,隐式地为输入特征供给关于退化类型的信息,以完成引导康复。全体来说,PromptIR结构经过逐级编码和解码以及引进提示块的方式完成图画康复使命。

Prompt Block

本文提出的PromptIR办法学习了在自然语言处理和计算机视觉使命中运用的根据提示的技能。在这些使命中,根据提示的技能已经被用于对在源使命上练习的大型固定模型进行参数高效微调,以适应方针使命。根据提示的技能之所以有用,是由于它们可以有用地将使命特定的上下文信息编码到提示组件中。在PromptIR中,提示组件是可学习的参数,与输入特征进行交互,以丰富它们的退化类型信息。提示块由两个关键组件组成:提示生成模块(PGM)和提示交互模块(PIM)

Prompt Generation Module (PGM)

提示组件 PcP_c 是一组可学习的参数,与输入特征交互,嵌入了退化信息。一种直接的特征-提示交互办法是直接运用学习到的提示来校准特征。但是,这种静态办法可能会发生次优成果,由于它对输入内容是无知的。因此,本文提出了提示生成模块(PGM),它从输入特征中动态预测根据注意力的权重,并将这些权重运用于提示组件,生成与输入条件相关的提示 PP。此外,PGM创建了一个同享空间,促进了提示组件之间的相关常识同享。

为了从输入特征 FlF_l 生成提示权重,PGM首要对空间维度进行大局平均池化(GAP),生成特征向量 v∈RCv \in \mathbb{R}^{\hat{C}}。接下来将 vv 经过通道减缩的卷积层,得到一个紧凑的特征向量,然后进行softmax操作,然后得到提示权重 w∈RNw \in \mathbb{R}^N。最终运用这些权重对提示组件进行调整,接着运用一个 333 \times 3 的卷积层。全体而言,PGM的进程可以归纳为:

P=Conv3x3(∑c=1NwiPc),wi=Softmax(Conv1x1(GAP(Fl)))(2)P = \text{Conv3x3}\left(\sum_{c=1}^{N} w_i P_c\right), \quad w_i = \text{Softmax}\left(\text{Conv1x1}\left(\text{GAP}(F_l)\right)\right) \quad (2)

由于在推理阶段,康复网络需求可以处理不同分辨率的图画,不能运用具有固定尺度的提示组件 PcP_c。因此,作者对提示组件进行双线性插值操作,将其扩大到与输入特征相同的尺度。

Prompt Interaction Module (PIM)

PIM的首要方针是完成输入特征FlF_l和提示PP之间的交互,以完成有辅导的康复进程。

在PIM中,沿着通道维度将生成的提示与输入特征进行拼接。接下来将拼接后的表明经过一个Transformer块进行处理,该块利用提示中编码的退化信息来转换输入特征。

本文的首要奉献是提示块,它是一个插件模块,与详细的架构无关。因此,在提出的PromptIR结构中,作者运用了现有的Transformer块,而不是开发一个新的块。Transformer块由两个顺序连接的子模块组成:多转置卷积头转置注意力(MDTA)和门控转置卷积前馈网络(GDFN)。MDTA在通道而不是空间维度上运用自注意操作,并具有线性复杂度。GDFN的方针是以可控的方式转换特征,即抑制信息较少的特征,只允许有用的特征在网络中传播。PIM的全体进程为:

Fl=Conv3x3(GDFN(MDTA[Fl;P]))(3)\hat{F}_l = \text{Conv3x3}\left(\text{GDFN}\left(\text{MDTA}[F_l; P]\right)\right) \quad (3)

其间 [;][ ; ] 表明拼接操作。MDTA的公式为 Y=WpV⋅Softmax(K⋅Q/)+XY = W_p V \cdot \text{Softmax}(K \cdot Q/\alpha) + X,其间 XXYY 别离表明输入和输出特征。QQKKVV 别离表明经过运用 11 点卷积后跟从 33 深度卷积在层归一化的输入特征图上取得的查询、键和值的投影。WpW_p 是点卷积,\alpha 是可学习的缩放参数,(⋅)(\cdot) 表明点积交互。GDFN的进程定义为 Z=Wp0((Wd1Wp1(LN(Y)))⊙Wd2Wp2(LN(Y)))+YZ = W_p^0\left(\phi\left(W_d^1 W_p^1(\text{LN}(Y))\right) \odot W_d^2 W_p^2(\text{LN}(Y))\right) + Y。其间,Wd(⋅)W_d^{(\cdot)} 是 33 的深度卷积,⊙\odot 表明逐元素乘法,\phi 是GELU非线性激活函数,LN\text{LN} 是层归一化。

实验

::: block-1

即插即用系列 | PromptIR:MBZUAI提出一种基于Prompt的全能图像恢复网络

表1:万能康复设置下的比较:运用单个模型在来自不同退化类型的图画组合数据集上练习。在不同使命上取平均值时,PromptIR相比之前的万能办法AirNet有0.86 dB的明显增益。 :::

::: block-1

即插即用系列 | PromptIR:MBZUAI提出一种基于Prompt的全能图像恢复网络

图4:对SOTS数据集上的万能办法进行去雾比较。PromptIR生成的成果在视觉上比之前的最先进办法AirNet更好。 :::

::: block-1

即插即用系列 | PromptIR:MBZUAI提出一种基于Prompt的全能图像恢复网络

图5:根据Rain100L数据集对万能办法进行图画去雨比较。PromptIR办法有用地去除雨滴,生成无雨痕的图画。 :::

即插即用系列 | PromptIR:MBZUAI提出一种基于Prompt的全能图像恢复网络

即插即用系列 | PromptIR:MBZUAI提出一种基于Prompt的全能图像恢复网络

即插即用系列 | PromptIR:MBZUAI提出一种基于Prompt的全能图像恢复网络

即插即用系列 | PromptIR:MBZUAI提出一种基于Prompt的全能图像恢复网络

定论

现有根据深度神经网络的图画康复模型通常只适用于特定的退化类型,并且在其它退化类型上泛化能力有限。但是,在实际运用中,需求运用单一一致模型处理多种退化类型,而不是依赖于特定退化类型的模型,由于后者缺少泛化能力并需求对输入中的详细退化类型有先验常识。为此,本文提出了一个即插即用的提示块,可以与输入特征进行交互,动态调整表明,使得康复进程可以适应相关的各类退化使命。经过将提示块集成到最先进的康复模型中,本文展示了提示块在万能图画康复中的实用性,在图画去噪、去雨和去雾使命上取得了明显的改善。