字节跳动-火山引擎多媒体试验室针对图画重采样模型面向图画紧缩的鲁棒性,规划了一种非对称的可逆重采样结构,提出新型图画重采样模型SAIN。
图画重采样 (Image Rescaling) 任务联合优化图画下采样和上采样操作,经过对图画分辨率的下降和复原,能够用于节约存储空间或传输带宽。在实际应用中,例如图集服务的多档位分发,下采样得到的低分辨率图画往往会进行有损紧缩,而有损紧缩往往导致现有算法的功能大幅下降。
近期,字节跳动-火山引擎多媒体试验室初次尝试了有损紧缩下的图画重采样功能优化,规划了一种非对称可逆重采样结构,根据该结构下的两点观察,进一步提出了抗紧缩图画重采样模型 SAIN。该研讨将一组可逆网络模块解耦成重采样和紧缩模拟两个部分,运用混合高斯散布建模分辨率下降和紧缩失真造成的联合信息丢失,结合可微的 JPEG 算子进行端到端练习,大幅进步了关于常见紧缩算法的鲁棒性。
现在关于图画重采样的研讨,SOTA 办法是根据可逆网络 (Invertible Network) 构建一个双射函数 (bijective function),其正运算将高分辨率 (HR) 图画转换为低分辨率 (LR) 图画和一系列遵守规范正态散布的隐变量,逆运算则随机采样隐变量,结合 LR 图画进行上采样复原。
因为可逆网络的特性,下采样和上采样算子坚持高度的对称性 (symmetry),这就导致受紧缩的 LR 图画难以经过本来学得的上采样算子进行复原。为了增强关于有损紧缩的鲁棒性,该研讨提出了一个根据非对称可逆结构的抗紧缩图画重采样模型 SAIN (Self-AsymmetricInvertibleNetwork)。
SAIN 模型的核心立异点如下:
- 提出了非对称 (asymmetric) 式的可逆图画重采样结构,解决了从前办法中因为严格对称性导致的功能下降问题;提出了增强可逆模块 (E-InvBlock),在共享大量参数和运算的前提下,增强模型拟合才能,一起建模紧缩前和紧缩后的两组 LR 图画,使模型能够经过逆运算进行紧缩康复和上采样。
- 构建可学习的混合高斯散布,建模分辨率下降和有损紧缩造成的联合信息丢失,经过重参数化技巧直接优化散布参数,愈加契合隐变量的实际散布。
SAIN 模型进行了 JPEG 和 WebP 紧缩下的功能验证,在多个公开数据集上的体现大幅抢先 SOTA 模型,相关研讨已经在AAAI 2023发表。
论文地址:arxiv.org/abs/2303.02…
代码链接:github.com/yang-jin-ha…
非对称重采样结构
*图 1 Dual-IRN 模型图*
为了进步抗紧缩功能,该研讨首先规划了一种非对称式的可逆图画重采样结构,提出了 baseline 计划 Dual-IRN 模型,深入剖析了该计划的不足之处后,进一步优化提出了 SAIN 模型。如上图所示,Dual-IRN 模型包括两个分支,其间 D-IRN 和 U-IRN 为两组可逆网络,别离学习 HR 图画与紧缩前/紧缩后 LR 图画之间的双射。
在练习阶段,Dual-IRN 模型经过可微的 JPEG 算子传递两个分支之间的梯度。而在测验阶段,模型经过 D-IRN 进行下采样取得高质量的 LR 图画,经过现实环境中的实在紧缩后,再经过具有紧缩感知 (compression-aware) 的 U-IRN 完成紧缩康复和上采样。
这样的非对称式结构,使得上采样和下采样的算子防止了严格的可逆联系,从根源上解决了紧缩算法破坏上下采样过程对称性带来的问题,相关于 SOTA 的对称式计划大幅进步了抗紧缩功能。
随后,研讨人员对 Dual-IRN 模型打开进一步的剖析,观察到以下两个现象:
- 第一,衡量 D-IRN 和 U-IRN 两个分支中间层特征的 CKA 类似性。如上图 (b) 所示,D-IRN 最终一层的输出特征(即网络生成的高质量 LR 图画)与 U-IRN 浅层的输出特征具有高度的类似性,标明 U-IRN 的浅层行为更靠近采样丢失的模拟,而深层行为更靠近紧缩丢失的模拟。
- 第二,计算 D-IRN 和 U-IRN 两个分支中间层隐变量的实在散布。如上图 (c)(d) 所示,不具紧缩感知的 D-IRN 的隐变量全体上满足单峰的正态散布假设,而具有紧缩感知的 U-IRN 的隐变量则呈现了多峰的形态,标明有损紧缩带来的信息丢失方式愈加杂乱。
根据以上剖析,研讨人员从多个方面对模型进行优化,最终得到的 SAIN 模型不仅网络参数量下降了将近一半,而且还取得了进一步的功能进步。
SAIN 模型细节
*图 2 SAIN 模型图*
SAIN 模型的架构如上图所示,首要进行了以下四个方面的改善:
- 全体结构方面。 根据中间层特征的类似性,将一组可逆网络模块解耦成重采样和紧缩模拟两个部分,形成自非对称 (self-asymmetric) 架构,防止运用两组完整的可逆网络。在测验阶段,运用正改换取得高质量的 LR 图画,先运用逆改换进行紧缩康复,再运用逆改换进行上采样。
- 网络结构方面。 根据紧缩丢失能够凭借高频信息康复的假设提出 E-InvBlock,在模块中增加一个加性改换,使得共享大量运算的前提下能够高效地建模紧缩前/紧缩后的两组 LR 图画。
- 信息丢失建模方面。 根据隐变量的实在散布,提出运用可学习的混合高斯散布建模下采样和有损紧缩带来的联合信息丢失,经过重参数化技巧端到端优化散布参数。
- 方针函数方面。 规划了多个丢失函数,用于约束网络的可逆性、进步重建精度,一起在丢失函数中引进实在紧缩操作以增强对实在紧缩计划的鲁棒性。
试验与作用评价
评价数据集为 DIV2K 验证集和 Set5、Set14、BSD100 和 Urban100 四个规范测验集。
量化评价指标为:
- PSNR:Peak Signal-to-Noise Ratio,峰值信噪比,反映重建图画与原始图画的均方误差,越高越好;
- SSIM:Structural Similarity Image Measurement,衡量重建图画与原始图画的结构类似度,越高越好。
在表 1 和图 3 的比照试验中,SAIN 在所有数据集上的 PSNR 和 SSIM 分数都大幅抢先SOTA 的图画重采样模型。在比较低的 QF 下,现有办法普遍出现严峻的功能下降,而 SAIN 模型依然坚持最优功能。
表 1 比照试验,在 DIV2K 数据集上比较不同 JPEG 紧缩质量 (QF) 下的重建质量 ( PSNR / SSIM )。
图 3 比照试验,在四个规范测验集上比较不同 JPEG QF 下的重建质量 ( PSNR )。
在图 4 的可视化成果中,能够明显看出 SAIN 复原的 HR 图画愈加清晰、准确。
*图 4 不同办法在 JPEG 紧缩下的可视化成果比照 (4 倍率)*
在表 2 的融化试验中,研讨人员还比较了其他几种结合实在紧缩进行练习的候选计划。这些候选计划相较于完全对称的现有模型 (IRN) 具有更高的抗紧缩功能,但在参数量和准确率上仍不如 SAIN 模型。
*表 2 针对全体结构和练习策略的融化试验*
在图 5 的可视化成果中,研讨人员比照了 WebP 紧缩失真下不同图画重采样模型的重建成果。能够发现,SAIN 模型在 WebP 紧缩计划下相同体现出了最高的重建分数,能够清晰准确地复原图画细节,证明了 SAIN关于不同紧缩计划的兼容性。
图 5 不同办法在WebP紧缩下的定性和定量比照 (2 倍率)
除此之外,该研讨还针对混合高斯散布、E-InvBlock 和丢失函数等部分进行了融化试验,证明了这些改善关于成果的正向贡献。
总结与展望
火山引擎多媒体试验室针对抗紧缩图画重采样提出了一个根据非对称可逆结构的模型:SAIN。该模型包括重采样和紧缩模拟两个部分,运用混合高斯散布建模分辨率下降和紧缩失真造成的联合信息丢失,结合可微的 JPEG 算子进行端到端练习,提出 E-InvBlock 来增强模型拟合才能,大幅进步了关于常见紧缩算法的鲁棒性。
火山引擎多媒体试验室是字节跳动旗下的研讨团队,致力于探究多媒体领域的前沿技能,参与世界规范化作业,其众多立异算法及软硬件解决计划已经广泛应用在抖音、西瓜视频等产品的多媒体事务,并向火山引擎的企业级客户提供技能服务。试验室成立以来,多篇论文当选世界顶会和旗舰期刊,并取得数项世界级技能赛事冠军、职业立异奖及最佳论文奖。
未来,研讨团队会继续优化图画重采样模型在有损紧缩下的功能,而且进一步探究抗紧缩视频重采样、恣意倍率重采样等愈加杂乱的应用情形。
参加咱们
字节跳动视频架构是字节跳动的视频中台部分,支持字节跳动旗下产品的点播、直播、实时通讯、图片、多媒体事务发展,方针成为业界多媒体解决计划抢先者,构建极致的视频技能/产品服务体会。
现在,视频架构团队已经过字节跳动旗下的火山引擎向企业开放技能才能和服务。
火山引擎联系方式
- 事务咨询:service@volcengine.com
- 商场合作:marketing@volcengine.com
- 电话:400-850-0030
扫描下方二维码 or 点击进行简历投递,参加咱们,让咱们一起做多媒体领域的领军者!
视频编解码算法工程师-多媒体试验室(北京/上海/杭州/深圳职位开放)