New Trends in Image Restoration and Enhancement(NTIRE)是近年来核算机图画恢复范畴最具影响力的全球性赛事。NTIRE 2022 Challenge on Efficient Super-Resolution 招引了 303 名参赛选手,来自智能创造音视频团队的同学组成「ByteESR」部队,凭借自研的 RLFN 算法从 43 支部队中脱颖而出,拿下该竞赛主赛道冠军。

字节跳动智创音视频团队拿下 NTIRE2022 ESR 挑战赛主赛道冠军

图 1 NTIRE2022 ESR 排行榜

Efficient Super-Resolution Challenge

Efficient Super-Resolution(ESR )竞赛旨在规划一种这样的网络:在维持 Peak Signal-to-Noise Ratio(PSNR )目标与 Baseline 适当水平的一起(PSNR 在验证集不低于 29.00dB ),从运转时刻、参数量、FLOPs、Activations 以及内存占用等方面进行至少一个维度的优化。其使命以 4 倍超分为基准,验证集以及测验集均为 DIV2K,下采样方式为 bicubic。

ESR 竞赛自 19 年起已举行两届,前两届 AIM19、AIM20 在学术界和工业界均产生十分大的影响力。因 AIM21 未举行该竞赛,本次竞赛是 ESR 竞赛的第三届。由苏黎世联邦理工学院核算机视觉实验室主办,参赛人数为历届之最,南京大学、南开大学、西安电子科技大学等高校和腾讯优图、阿里巴巴、网易、旷世科技等闻名互联网公司均有参赛。整场竞赛分为三个赛道:

  • Main Track: Runtime,依据模型在验证集和测验集的均匀运转时刻进行排名。
  • Sub-Track 1: Model Complexity,依据模型的参数量和 FLOPs 加权得到排名。
  • Sub-Track 2: Overall Performance,依据模型运转时刻、参数量、FLOPs、Activations 及内存占用五个维度的归纳考量得到排名。

NTIRE 已发布官方竞赛报告:arxiv.org/abs/2205.05… 。经过剧烈的比赛,字节跳动的参赛部队「ByteESR」在主赛道 Runtime 夺冠,在子赛道 Overall Performance 也位列第二。

ByteESR参赛计划论文:arxiv.org/abs/2205.07…

参赛计划

根据 Convolutional Neural Network(CNN)的方法已经在图画超分范畴取得了极大的进展,为了解决模型在端侧设备布置的功能问题,各种不同的快速且轻量型的 CNN 模型被提出,IMDN 和 RFDN 是其中的佼佼者。作为前两届的冠军计划,为了在有限的核算量下取得更好的体现,两者均运用了复杂的多路信息蒸馏,但是从推理加快的角度来看,多分支结构远不如单通路结构友爱,一般来说分支越多对加快越不利。ByteESR 部队在 RFDN 的根底上从多方面提出了改善:

  1. 从头考虑 RFDN 的网络规划并研究其速度瓶颈,提出一个愈加高效的网络结构 Residual Local Feature Network(RLFN);
  2. 对 contrastive loss 中的特征选取进行剖析,从头规划特征提取器后选择浅层特征来进步 PSNR;
  3. 提出一种多阶段的 warm-start 练习战略进步 PSNR。

模型结构

Residual Local Feature Network 的全体结构选用图片超分范畴的根底结构,首要改善点在于中心模块 RLFB 的规划,下图 2(b)给出了 RLFB 的详细结构,它由 RFDN 中的 RFDB 模块演化而来。

图片

图 2 RFDB 和 RLFB 结构对比

RFDB 选用一种多阶段渐进式的蒸馏和细化战略。如图 2(a)中灰色布景区域所示,关于每个阶段 RFDB 选用一个 SRB 模块得到细化特征,然后用一个 1×1 卷积进行特征蒸馏,终究一切的蒸馏特征经过 Concat 进行交融。假设输入特征表明为 F_in,DM_j 和 RM_j 别离表明第 j 个蒸馏和细化模块,该进程能够描绘为:

图片

尽管 1×1 卷积和 Concat 操作组成的特征蒸馏分支能够有效进步模型体现,但这些操作严重影响了运转时刻。为了进一步剖析 RFDB 的耗时,ByteESR 部队规划了图 3 所示的消融实验。首要移除 RFDB 中蒸馏分支相关的层得到 RFDB_R_48,从图 3 表中能够看出 RFDB_R_48 和原始的 RFDB 比较减少了 25%的运转时刻。然后经过增大通道数的方式来进步模型体现,RFDB_R_52 的 PSNR 大幅超过 RFDB_R_48 但运转时刻只是小幅增加。在 RFDB_R_52 的根底上,RLFB 中删除了 SRB 的密布加法操作并替换为一般的 CONV+RELU,进一步减少了运转时刻。终究将 Add 操作提早,用一个部分特征的残差学习进行特征细化。该进程能够描绘为:

字节跳动智创音视频团队拿下 NTIRE2022 ESR 挑战赛主赛道冠军

字节跳动智创音视频团队拿下 NTIRE2022 ESR 挑战赛主赛道冠军

图 3 模型结构的消融实验成果

RFDB 中选用的注意力模块 Enhanced Spatial Attention(ESA)经过建模空间依靠联系使网络重视更为重要的空间特征,显现了优异的功能。根据内部自研的模型紧缩结构 NNcompression,ByteESR 部队剖析了 ESA 模块的参数冗余性。在图 4 中,曲线越平坦表明对应模块的参数冗余度越高。因为 ConvGroups 中的三个卷积层在冗余度排序中均处于靠前的方位 ,因此我们能够在没有显着作用丢失的情况下将 ESA 中 ConvGroups 减少到一个 Conv 层。

字节跳动智创音视频团队拿下 NTIRE2022 ESR 挑战赛主赛道冠军

图 4 根据 one-shot 结构化剪枝算法的的参数冗余度剖析

总结来说,RLFB 对特征细化分支进行从头规划并减少 ESA 中的冗余层,终究在相同参数量下,RLFB 得到和 RFDB 相近的 PSNR,并且有显着的速度优势。

在竞赛中,因为 Loss 函数和练习战略的加持,ByteESR 部队选用了更小的模型结构。参赛的 RLFN 模型选用 4 个 RLFB 模块,模型通道数设为 48,一起 ESA 中心特征通道数设置为 16。在练习的终究阶段,ByteESR 部队运用 NNcompression 中集成的通道依靠 SFP 算法来紧缩模型,将部分层剪枝为 46 通道。

Loss 函数

丢失函数在模型练习中是十分重要的一环,规划优异的丢失函数能够大幅度进步模型的作用,一起不增加额定的推理耗时。ByteESR 部队详细剖析了被广泛应用的 contrastive loss,并对 contrastive loss 进行了优化。

Contrastive loss 首要经过特征提取器提取 anchor,postive,negative 的特征,然后核算这三部分特征在 latent space 中的间隔丢失。一般在超分辨率使命中,anchor,positive,negative 别离指网络重建图画,高分辨率图画,以及低分辨率图画经过 bicubic 上采样的成果。ByteESR 部队详细剖析了特征提取器(以 VGG-19 为例)提取到的各层特征,发现:提取的浅层特征具有十分准确的空间信息,而深层特征尽管具有丰富的语意信息,但是它的空间信息因为 max_pooling 等原因变得十分模糊。

字节跳动智创音视频团队拿下 NTIRE2022 ESR 挑战赛主赛道冠军

图 5 对提取到特征进行了可视化,能够发现浅层特征具有十分准确的空间信息

根据以上定论,ByteESR 部队从头构建了一个两层卷积组成的浅层特征提取器,一起运用 Tanh()激活函数替代了 Relu()激活函数。能够发现从头构建的特征提取器能够提取到愈加准确的空间信息,一起激活响应也愈加强烈。

字节跳动智创音视频团队拿下 NTIRE2022 ESR 挑战赛主赛道冠军

图 6 特征图可视化,左侧为 VGG19 特征提取器,右侧为 ByteESR 规划的特征提取器

ByteESR 部队在多个 benchmark 数据集上验证了从头规划的 contrastive loss 的有效性,能够有效进步 PSNR 约 0.01 ~ 0.02db。

练习战略

为了进一步进步模型的作用,ByteESR 部队对模型的练习战略进行了进一步优化。以 x4 超分使命为例,通常情况下,会运用 x2 的超分模型的权重,作为 x4 超分模型的初始化权重。运用预练习权重能够供给一个愈加准确的初始化作用,一起加快模型的收敛速度,进步终究作用。

ByteESR 部队在此根底上提出了一种 multi-stage warm-start 的练习战略。以 x4 超分使命为例,在第一个阶段,不运用任何预练习权重,模型从 0 开端进行练习至收敛。从第二个阶段开端,每次都运用 warm-start 战略,即用前一个阶段的模型权重进行初始化。Multi-stage warm-start 练习战略比较于一般练习战略有两个首要优势:

  1. 能够充分屡次运用每个 stage 的模型权重,较大幅度进步终究体现。
  2. 多个 stage 的练习战略能够协助模型跳出 local minima。

在 DIV2K Val 数据集上,运用两次 warm-start 战略能够进步 PSNR 约 0.03db。

总结

我们提出了一个更高效的网络结构 RLFN,在推理速度和作用之间取得杰出的平衡,并且从头考虑 contrastive loss 的运用,规划了一个更适合超分使命的浅层特征提取器,此外我们还提出了更有效的多阶段 warm-start 练习战略,终究在 NTIRE 2022 Efficient Super-Resolution 中取得冠军。

关于我们

字节跳动智能创造团队是字节跳动音视频创新技术和事务中台,覆盖了核算机视觉、图形学、语音、拍照修改、特效、客户端、服务端工程等技术范畴,在部门内部完成了前沿算法-工程系统-产品全链路的闭环,旨在以多种形式向公司内部各事务线以及外部协作客户供给业界最前沿的内容理解、内容创造、互动体会与消费的才能和职业解决计划。

目前,智能创造团队已经过字节跳动旗下的火山引擎向企业敞开技术才能和服务。

火山引擎联系方式:

事务咨询:service@volcengine.com

商场协作:marketing@volcengine.com

电话:400-850-0030

引用文献

[1] Yawei Li, Kai Zhang, Luc Van Gool, Radu Timofte, et al. Ntire 2022 challenge on efficient super-resolution: Methods and results. In IEEE Conference on Computer Vision and Pattern Recognition Workshops, 2022.

[2] Zheng Hui, Xinbo Gao, Yunchu Yang, and Xiumei Wang. Lightweight image super-resolution with information multi-distillation network. In Proceedings of the ACM International Conference on Multimedia, pages 2024–2032, 2019.

[3] Jie Liu, Jie Tang, and Gangshan Wu. Residual feature distillation network for lightweight image super-resolution. In European Conference on Computer Vision Workshops, pages41–55. Springer, 2020.

[4] Yanbo Wang, Shaohui Lin, Yanyun Qu, Haiyan Wu, Zhizhong Zhang, Yuan Xie, and Angela Yao. Towards compact single image super-resolution via contrastive self-distillation. In Zhi-Hua Zhou, editor, Proceedings of the Thirtieth International Joint Conference on Artificial Intelligence, IJCAI 2021, Virtual Event / Montreal, Canada, 19-27 August 2021, pages 1122–1128. 2021.

[5] Haiyan Wu, Yanyun Qu, Shaohui Lin, Jian Zhou, Ruizhi Qiao, Zhizhong Zhang, Yuan Xie, and Lizhuang Ma. Contrastive learning for compact single image dehazing. In IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2021, virtual, June 19-25, 2021, pages 10551–10560. Computer Vision Foundation / IEEE, 2021.