机器之心报导

修改:蛋酱、小舟

假如甲方想把大象 P 转身,你只需要拖动 GAN 就好了。

在图画生成范畴,以 Stable Diffusion 为代表的分散模型已然成为当时占有主导地位的范式。但分散模型依赖于迭代推理,这是一把双刃剑,因为迭代办法能够完成具有简略方针的稳定练习,但推理进程需要高昂的计算成本。

在 Stable Diffusion 之前,生成对抗网络(GAN)是图画生成模型中常用的根底架构。相比于分散模型,GAN 经过单个前向传递生成图画,因此本质上是更高效的。但因为练习进程的不稳定性,扩展 GAN 需要仔细调整网络架构和练习要素。因此,GAN 办法很难扩展到十分复杂的数据集上,在实践应用方面,分散模型比 GAN 办法更易于操控,这是 GAN 式微的原因之一。

当时,GAN 主要是经过手动注释练习数据或先验 3D 模型来保证其可控性,这一般缺少灵活性、精确性和通用性。然而,一些研讨者看重 GAN 在图画生成上的高效性,做出了许多改进 GAN 的测验。

最近,来自马克斯・普朗克计算机科学研讨所、MIT CSAIL 和谷歌的研讨者们研讨了一种操控 GAN 的新办法 DragGAN,能够让用户以交互的办法「拖动」图画的任何点精确抵达方针点。

有手就行?把大象P转身只需拖动鼠标,华人一作DragGAN爆火

  • 论文链接:arxiv.org/abs/2305.10…

  • 项目主页:vcai.mpi-inf.mpg.de/projects/Dr…

这种全新的操控办法十分灵活、强壮且简略,有手就行,只需在图画上「拖动」想改动的方位点(操作点),就能合成你想要的图画。

例如,让狮子「转头」并「开口」:

有手就行?把大象P转身只需拖动鼠标,华人一作DragGAN爆火

还能轻松让小猫 wink:

有手就行?把大象P转身只需拖动鼠标,华人一作DragGAN爆火

再比如,你能够经过拖动操作点,让单手插兜的模特把手拿出来、改动站立姿态、短袖改长袖。看上去就像是同一个模特重新拍摄了新照片:

假如你也接到了「把大象转个身」的 P 图需求,不妨试试:

有手就行?把大象P转身只需拖动鼠标,华人一作DragGAN爆火

有手就行?把大象P转身只需拖动鼠标,华人一作DragGAN爆火

有手就行?把大象P转身只需拖动鼠标,华人一作DragGAN爆火

整个图画改换的进程就主打一个「简略灵活」,图画想怎样变就怎样变,因此有网友预言:「PS 似乎要过期了」。

有手就行?把大象P转身只需拖动鼠标,华人一作DragGAN爆火

也有人觉得,这个办法也可能会成为未来 PS 的一部分。

有手就行?把大象P转身只需拖动鼠标,华人一作DragGAN爆火

总归,观感便是一句话:「看到这个,我脑袋都炸了。」

有手就行?把大象P转身只需拖动鼠标,华人一作DragGAN爆火

当咱们都认为 GAN 这个方向从此消沉的时候,总会呈现让咱们眼前一亮的著作:

有手就行?把大象P转身只需拖动鼠标,华人一作DragGAN爆火

这篇奇特的论文,现已入选了 SIGGRAPH 2023。研讨者表示,代码将于六月开源。

有手就行?把大象P转身只需拖动鼠标,华人一作DragGAN爆火

那么,DragGAN 是怎么做到强壮又灵活的?咱们来看一下该研讨的技能办法。

办法概述

该研讨提出的 DragGAN 主要由两个部分组成,包含:

  • 根据特征的运动监督,驱动图画中的操作点向方针方位移动;

  • 一种凭借判别型 GAN 特征的操作点盯梢办法,以操控点的方位。

DragGAN 能够经过精确操控像素的方位对图画进行改动,可处理的图画类型包含动物、轿车、人类、风景等,涵盖很多物体姿态、形状、表情和布局,而且用户的操作办法简略通用。

GAN 有一个很大的优势是特征空间具有满足的判别力,能够完成运动监督(motion supervision)和精确的点盯梢。具体来说,运动监督是经过优化潜在代码的移位特征 patch 损失来完成的。每个优化步骤都会导致操作点更接近方针,然后经过特征空间中的最近邻搜索来履行点盯梢。重复此优化进程,直到操作点达到方针。

DragGAN 还答应用户有选择地制作感兴趣的区域以履行特定于区域的修改。因为 DragGAN 不依赖任何额定的网络,因此它完成了高效的操作,大多数情况下在单个 RTX 3090 GPU 上只需要几秒钟就能够完成图画处理。这让 DragGAN 能够进行实时的交互式修改,用户能够对图画进行屡次改换更改,直到取得所需输出。

有手就行?把大象P转身只需拖动鼠标,华人一作DragGAN爆火

如下图所示,DragGAN 能够有效地将用户界说的操作点移动到方针点,在许多方针类别中完成不同的操作作用。与传统的形变办法不同的是,本文的变形是在 GAN 学习的图画流形上进行的,它倾向于遵照底层的方针结构,而不是简略地应用扭曲。例如,该办法能够生成本来看不见的内容,如狮子嘴里的牙齿,而且能够依照物体的刚性进行变形,如马腿的弯曲。

有手就行?把大象P转身只需拖动鼠标,华人一作DragGAN爆火

研讨者还开发了一个 GUI,供用户经过简略地点击图画来交互地进行操作。

此外,经过与 GAN 回转技能相结合,本文办法还能够作为一个用于实在图画修改的东西。

一个十分有用的用途是,即便合影中某些同学的表情办理不过关,你也可认为 Ta 换上自傲的笑容:

有手就行?把大象P转身只需拖动鼠标,华人一作DragGAN爆火

顺便提一句,这张照片正是本篇论文的一作潘新钢,2021 年在香港中文大学多媒体试验室取得博士学位,师从汤晓鸥教授。目前是马克斯普朗克信息学研讨所博士后,并将从 2023 年 6 月开始担任南洋理工大学计算机科学与工程学院 MMLab 的任助理教授。

这项作业旨在为 GAN 开发一种交互式的图画操作办法,用户只需要点击图画来界说一些对(操作点,方针点),并驱动操作点抵达其对应的方针点。

这项研讨根据 StyleGAN2,基本架构如下:

有手就行?把大象P转身只需拖动鼠标,华人一作DragGAN爆火

在 StyleGAN2 架构中,一个 512 维的潜在代码∈N(0,)经过一个映射网络被映射到一个中间潜在代码∈R 512 中。的空间一般被称为 W。然后,被送到生成器,产生输出图画 I = ()。在这个进程中,被仿制了几次,并被送到发生器的不同层,以操控不同的特点水平。另外,也能够对不同层运用不同的,在这种情况下,输入将是

有手就行?把大象P转身只需拖动鼠标,华人一作DragGAN爆火
,其中是层数。这种不太受约束的 W^+ 空间被证明是更有体现力的。因为生成器学习了从低维潜在空间到高维图画空间的映射,它能够被看作是对图画流形的建模。

试验

为了展现 DragGAN 在图画处理方面的强壮才能,该研讨展开了定性试验、定量试验和融化试验。试验结果表明 DragGAN 在图画处理和点盯梢使命中均优于已有办法。

定性评价

图 4 是本文办法和 UserControllableLT 之间的定性比较,展现了几个不同物体类别和用户输入的图画操作结果。本文办法能够精确地移动操作点以抵达方针点,完成了多样化和天然的操作作用,如改动动物的姿态、轿车形状和景象布局。相比之下,UserControllableLT 不能忠实地将操作点移动到方针点上,往往会导致图画中呈现不想要的改变。

有手就行?把大象P转身只需拖动鼠标,华人一作DragGAN爆火

如图 10 所示,它也不能像本文办法那样坚持未遮盖区域固定不变。

有手就行?把大象P转身只需拖动鼠标,华人一作DragGAN爆火

图 6 供给了与 PIPs 和 RAFT 之间的比较,本文办法精确地盯梢了狮子鼻子上方的操作点,然后成功地将它拖到了方针方位。

有手就行?把大象P转身只需拖动鼠标,华人一作DragGAN爆火

实在图画修改。运用 GAN inversion 技能,将实在图画嵌入 StyleGAN 的潜空间,本文办法也能够用来操作实在图画。

图 5 显示了一个例子,将 PTI inversion 应用于实在图画,然后进行一系列的操作来修改图画中人脸的姿态、头发、形状和表情:

有手就行?把大象P转身只需拖动鼠标,华人一作DragGAN爆火

图 13 展现了更多的实在图画修改案例:

有手就行?把大象P转身只需拖动鼠标,华人一作DragGAN爆火

定量评价

研讨者在两种设置中下对该办法进行了定量评价,包含人脸标记点操作和成对图画重建。

人脸标记点操作。如表 1 所示,在不同的点数下,本文办法显着优于 UserControllableLT。特别是,本文办法保留了更好的图画质量,正如表中的 FID 得分所示。

有手就行?把大象P转身只需拖动鼠标,华人一作DragGAN爆火

这种对比在图 7 中能够显着看出来,本文办法打开了嘴巴并调整下巴的形状以匹配方针脸,而 UserControllableLT 未能做到这一点。

有手就行?把大象P转身只需拖动鼠标,华人一作DragGAN爆火

成对图画重建。如表 2 所示,本文办法在不同的方针类别中优于所有基线。

有手就行?把大象P转身只需拖动鼠标,华人一作DragGAN爆火

融化试验

研讨者研讨了在运动监督和点盯梢中运用某种特征的作用,并报告了运用不同特征的人脸标记点操作的功能(MD)。如表 3 所示,在运动监督和点盯梢中,StyleGAN 的第 6 个 block 之后的特征图体现最好,显示了分辨率和辨别力之间的最佳平衡。

有手就行?把大象P转身只需拖动鼠标,华人一作DragGAN爆火

表 4 中供给了_1 的作用。能够看出,功能对_1 的选择不是很灵敏,而_1=3 的功能略好。

有手就行?把大象P转身只需拖动鼠标,华人一作DragGAN爆火

讨论

掩码的影响。本文办法答应用户输入一个表示可移动区域的二进制掩码,图 8 展现了它的作用:

有手就行?把大象P转身只需拖动鼠标,华人一作DragGAN爆火

Out-of-distribution 操作。从图 9 能够看出,本文的办法具有一定的 out-of-distribution 才能,能够创造出练习图画散布之外的图画,例如一个极度打开的嘴和一个大的车轮。

有手就行?把大象P转身只需拖动鼠标,华人一作DragGAN爆火

研讨者相同指出了本文办法现存的局限性:虽然有一些揣度才能,其修改质量依然遭到练习数据多样性的影响。如图 14(a)所示,创建一个偏离练习散布的人体姿态会导致伪影。此外,如图 14(b)和(c)所示,无纹路区域的操作点有时会在追踪中呈现更多的漂移。因此,研讨者主张尽可能选择纹路丰厚的操作点。

有手就行?把大象P转身只需拖动鼠标,华人一作DragGAN爆火