掩盖 297 篇文献
黄健成 投稿
量子位 | 公众号 QbitAI
针对图画修正中的分散模型,中科院联合 Adobe 和苹果公司的研讨人员发布了一篇重磅总述。
全文长达 26 页,共 1.5 万余词,包含 297 篇文献,全面研讨了图画修正的各种前沿办法。
同时,作者还提出了全新的 benchmark,为研讨者提供了便捷的学习参阅工具。
在这份总述中,作者从理论和实践层面,翔实总结了运用分散模型进行图画修正的现有办法。
作者从学习战略、输入条件等多个角度对相关效果进行分类,并展开了深入剖析。
为了进一步评价模型性能,作者还提出了一个测评基准,并展望了未来研讨的一些潜在方向。
△依据分散模型的图画修正效果速览
下面,作者将从使命分类、完成办法、测验基准和未来展望四个方面介绍依据分散模型的图画修正效果。
除了在图画生成、康复和增强方面取得的严峻进步外,分散模型在图画修正方面也完成了显著打破,相比之前占主导地位的生成对立网络(GANs),前者具有更强的可控性。
不同于 “从零开始” 的图画生成,以及旨在修复含糊图画、进步质量的图画康复和增强,图画修正触及对现有图画外观、结构或内容的修正,包含增加目标、替换布景和改动纹路等使命。
在这项查询中,作者依据学习战略将图画修正论文分为三个首要组别:依据练习的办法、测验时微调办法和无需练习和微调的办法。
此外,作者还探讨了操控修正进程运用的 10 种输入条件,包含文本、掩码、参阅图画、类别、布局、姿态、草图、切割图、音频和拖动点。
进一步地,作者查询了这些办法能够完成的 12 种最常见的修正类型,它们被安排成以下三个广泛的类别:
- 语义修正:此类别包含对图画内容和叙述的更改,影响所描绘场景的故事、布景或主题元素。这一类别内的使命包含目标增加、目标移除、目标替换、布景更改和情感表达修正。
- 风格修正:此类别侧重于增强或转化图画的视觉风格和审美元素,而不改动其叙述内容。这一类别内的使命包含色彩更改、纹路更改和整体风格更改,包含艺术性和实际性风格。
- 结构修正:此类别触及图画内元素的空间布局、定位、视角和特征的变化,强调场景内目标的安排和展现。这一类别内的使命包含目标移动、目标巨细和形状更改、目标动作和姿态更改以及视角 / 角度更改。
依据练习的办法
在依据分散模型的图画修正范畴,依据练习的办法已经取得了显著的突出地位。
这些办法不仅因其稳定的分散模型练习和有效的数据散布建模而闻名,而且在各种修正使命中体现牢靠。
为了完全剖析这些办法,作者依据它们的应用规划、练习所需条件和监督类型将它们分类为四个首要组别。
依据核心修正办法,这些首要组别中的办法又能够细分为不同的类型。
下图展现了两种有代表性的 CLIP 辅导办法——DiffusionCLIP 和 Asyrp 的结构图。
△样本图画来自 CelebA 数据集上的 Asyrp
下面的图片,展现的是指令图画修正办法的通用结构。
△示例图画来自 InstructPix2Pix、InstructAny2Pix 和 MagicBrush
测验时微调的办法
在图画生成和修正中,还会选用微调战略来增强图画修正能力,测验时微调带来了精确性和可操控性的重要提升。
如下图所示,微调办法的既包含微调整个去噪模型,也包含专注于特定层或嵌入。
此外,作者还评论了超网络的集成和直接图画表明优化
下图展现了运用不同微调组件的微调结构。
△样本图画来自 Custom-Edit
免练习和微调办法
在图画修正范畴,无需练习和微调的办法起点是它们快速且成本低,由于在整个修正进程中不需求任何办法的练习(在数据集上)或微调(在源图画上)。
依据它们修正的内容,能够分为五个类别,这些办法奇妙地使用分散模型内在的原则来完成修正目标。
下图是免练习办法的通用结构。
△样本图片来自 LEDITS++
图画 inpainting(补全)和 outpainting(外扩)
图画补全和外扩通常被视为图画修正的子使命,能够分为两大类型——上下文驱动的补全(上排)与多模态条件补全(下排)。
△样本分别来自于 Palette 和 Imagen Editor
除了剖析各种办法的完成原理,评价这些办法在不同修正使命中的能力也至关重要,但现有的图画修正测验规范存在局限。
例如,EditBench 首要针对文本和掩码引导的补全,但疏忽了触及全局修正的使命(如风格转化);TedBench 虽然扩展了使命规划,但缺少详细辅导;EditVal 企图提供更全面的使命和办法掩盖规划,但图画通常分辨率低且含糊……
为了处理这些问题,作者提出了 EditEval 基准,包含一个 50 张高质量图画的数据集,且每张图画都附有文本提示,能够评价模型在 7 个常见修正使命的性能。
这 7 种使命包含物体增加 / 移除 / 替换,以及布景、风格和姿态、动作的改动。
此外,作者还提出了 LMM 分数,使用多模态大模型(LMMs)评价不同使命上的修正性能,并进行了真人用户研讨以纳入片面评价。
△LMM Score 与用户研讨的皮尔逊相关系数
下图比较了 LMM Score/CLIPScore 与用户研讨的皮尔逊相关系数。
作者以为,虽然在运用分散模型进行图画修正方面取得了成功,但仍有一些缺乏需求在未来的作业中加以处理。
削减模型推理过程
大多数依据分散的模型在推理进程中需求大量的过程来获取终究图画,这既耗时又消耗计算资源,给模型部署和用户体会带来应战。
为了进步推理效率,已经由团队研讨了少过程或一步生成的分散模型。
近期的办法通过从预练习的强分散模型中提取知识来削减过程数,以便少过程模型能够模仿强模型的行为。
一个更具应战性的方向是直接开发少过程模型,而不依赖于预练习的模型(例如一致性模型)。
进步模型效率
练习一个能够生成传神结果的分散模型在计算上是密布的,需求大量的高质量数据。
这种杂乱性使得开发用于图画修正的分散模型十分具有应战性。
为了下降练习成本,近期的作业设计了更高效的网络架构作为分散模型的主干。
此外,另一个重要方向是只练习部分参数,或者冻住原始参数并在预练习的分散模型之上增加一些新层。
杂乱目标结构修正
现有的作业能够在修正图画时组成传神的色彩、风格或纹路,但处理杂乱结构时依然会发生显着的修正痕迹,例如手指、标志和文字。
研讨者已经在尝试处理这些问题,常用的战略是把 “六个手指” 等常见问题作为负面提示,以使模型避免生成此类图画,这在某些情况下是有效的,但不行稳健。
近期的作业中,已有团队开始运用布局、边缘或密布标签作为辅导,修正图画的全局或部分结构。
杂乱的光照和暗影修正
修正目标的光照或暗影依然是一个应战,由于这需求精确估计场景中的光照条件。
曾经的作业(如 Total Relighting)运用网络组合来估计远景目标的法线、反照率和暗影,以取得传神的从头照明效果。
最近,也由有团队提出将分散模型用于修正面部的光照,ShadowDiffusion 也探索了依据分散模型的暗影组成,能够生成合理的目标暗影。
然而,运用分散模型在不同布景条件下精确修正目标的暗影依然是一个未处理的问题。
图画修正模型的泛化性
现有依据分散的图画修正模型能够为给定的一部分条件组成传神的视觉内容,但在许多实际世界场景中依然会失败。
这个问题的根本原因在于,模型无法精确地对所有或许的样本在条件散布空间中进行建模。
怎么改进模型以一直生成无瑕疵的内容依然是一个应战,处理这个问题有以下几种思路:
首先是扩大练习数据规划,以掩盖具有应战性的场景,这种办法效果显著,但成本较高,如在医学图画、视觉检测等范畴数据难以收集。
第二种办法是调整模型以承受更多条件,如结构引导、3D 感知引导和文本引导,以完成更可控和确定性的内容创作。
此外,还能够选用迭代细化或多阶段练习的办法,以逐渐改进模型的初始结果。
牢靠的评价目标
对图画修正进行精确评价,对于保证修正内容与给定条件的对齐至关重要。
虽然有如 FID、KID、LPIPS、CLIP 得分、PSNR 和 SSIM 等定量目标,但大多数现有评价作业依然严峻依赖于用户研讨,这既不高效也不行扩展。
牢靠的定量评价目标依然是一个待处理的问题。最近,已经有团队提出了更精确的目标来量化目标的感知相似性。
DreamSim 测量了两幅图画的中等级别相似性,考虑了布局、姿态和语义内容,而且优于 LPIPS。
相似的,远景特征平均(FFA)也是一种简单而有效的办法,可被用于测量目标的相似性。
另外,作者在本文中提出了的 LMM score,也是一种有效的图画修正衡量。
更多有关用于图画修正的分散模型的详细信息,能够阅览原作,同时作者也在 GitHub 上发布了附带资源库。
论文链接:
arxiv.org/abs/2402.17…
Github:
github.com/SiatMMLab/A…
版权所有,未经授权不得以任何办法转载及运用,违者必究。