有手就行？把大象P转身只需拖动鼠标，华人一作DragGAN爆火-六虎

机器之心报导

修改：蛋酱、小舟

假如甲方想把大象 P 转身，你只需要拖动 GAN 就好了。

在图画生成范畴，以 Stable Diffusion 为代表的分散模型已然成为当时占有主导地位的范式。但分散模型依赖于迭代推理，这是一把双刃剑，因为迭代办法能够完成具有简略方针的稳定练习，但推理进程需要高昂的计算成本。

在 Stable Diffusion 之前，生成对抗网络（GAN）是图画生成模型中常用的根底架构。相比于分散模型，GAN 经过单个前向传递生成图画，因此本质上是更高效的。但因为练习进程的不稳定性，扩展 GAN 需要仔细调整网络架构和练习要素。因此，GAN 办法很难扩展到十分复杂的数据集上，在实践应用方面，分散模型比 GAN 办法更易于操控，这是 GAN 式微的原因之一。

当时，GAN 主要是经过手动注释练习数据或先验 3D 模型来保证其可控性，这一般缺少灵活性、精确性和通用性。然而，一些研讨者看重 GAN 在图画生成上的高效性，做出了许多改进 GAN 的测验。

最近，来自马克斯・普朗克计算机科学研讨所、MIT CSAIL 和谷歌的研讨者们研讨了一种操控 GAN 的新办法 DragGAN，能够让用户以交互的办法「拖动」图画的任何点精确抵达方针点。

论文链接：arxiv.org/abs/2305.10…
项目主页：vcai.mpi-inf.mpg.de/projects/Dr…

这种全新的操控办法十分灵活、强壮且简略，有手就行，只需在图画上「拖动」想改动的方位点（操作点），就能合成你想要的图画。

例如，让狮子「转头」并「开口」：

还能轻松让小猫 wink：

再比如，你能够经过拖动操作点，让单手插兜的模特把手拿出来、改动站立姿态、短袖改长袖。看上去就像是同一个模特重新拍摄了新照片：

假如你也接到了「把大象转个身」的 P 图需求，不妨试试：

整个图画改换的进程就主打一个「简略灵活」，图画想怎样变就怎样变，因此有网友预言：「PS 似乎要过期了」。

也有人觉得，这个办法也可能会成为未来 PS 的一部分。

总归，观感便是一句话：「看到这个，我脑袋都炸了。」

当咱们都认为 GAN 这个方向从此消沉的时候，总会呈现让咱们眼前一亮的著作：

这篇奇特的论文，现已入选了 SIGGRAPH 2023。研讨者表示，代码将于六月开源。

那么，DragGAN 是怎么做到强壮又灵活的？咱们来看一下该研讨的技能办法。

办法概述

该研讨提出的 DragGAN 主要由两个部分组成，包含：

根据特征的运动监督，驱动图画中的操作点向方针方位移动；
一种凭借判别型 GAN 特征的操作点盯梢办法，以操控点的方位。

DragGAN 能够经过精确操控像素的方位对图画进行改动，可处理的图画类型包含动物、轿车、人类、风景等，涵盖很多物体姿态、形状、表情和布局，而且用户的操作办法简略通用。

GAN 有一个很大的优势是特征空间具有满足的判别力，能够完成运动监督（motion supervision）和精确的点盯梢。具体来说，运动监督是经过优化潜在代码的移位特征 patch 损失来完成的。每个优化步骤都会导致操作点更接近方针，然后经过特征空间中的最近邻搜索来履行点盯梢。重复此优化进程，直到操作点达到方针。

DragGAN 还答应用户有选择地制作感兴趣的区域以履行特定于区域的修改。因为 DragGAN 不依赖任何额定的网络，因此它完成了高效的操作，大多数情况下在单个 RTX 3090 GPU 上只需要几秒钟就能够完成图画处理。这让 DragGAN 能够进行实时的交互式修改，用户能够对图画进行屡次改换更改，直到取得所需输出。

如下图所示，DragGAN 能够有效地将用户界说的操作点移动到方针点，在许多方针类别中完成不同的操作作用。与传统的形变办法不同的是，本文的变形是在 GAN 学习的图画流形上进行的，它倾向于遵照底层的方针结构，而不是简略地应用扭曲。例如，该办法能够生成本来看不见的内容，如狮子嘴里的牙齿，而且能够依照物体的刚性进行变形，如马腿的弯曲。

研讨者还开发了一个 GUI，供用户经过简略地点击图画来交互地进行操作。

此外，经过与 GAN 回转技能相结合，本文办法还能够作为一个用于实在图画修改的东西。

一个十分有用的用途是，即便合影中某些同学的表情办理不过关，你也可认为 Ta 换上自傲的笑容：

顺便提一句，这张照片正是本篇论文的一作潘新钢，2021 年在香港中文大学多媒体试验室取得博士学位，师从汤晓鸥教授。目前是马克斯普朗克信息学研讨所博士后，并将从 2023 年 6 月开始担任南洋理工大学计算机科学与工程学院 MMLab 的任助理教授。

这项作业旨在为 GAN 开发一种交互式的图画操作办法，用户只需要点击图画来界说一些对（操作点，方针点），并驱动操作点抵达其对应的方针点。

这项研讨根据 StyleGAN2，基本架构如下：

在 StyleGAN2 架构中，一个 512 维的潜在代码∈N（0，）经过一个映射网络被映射到一个中间潜在代码∈R 512 中。的空间一般被称为 W。然后，被送到生成器，产生输出图画 I = ()。在这个进程中，被仿制了几次，并被送到发生器的不同层，以操控不同的特点水平。另外，也能够对不同层运用不同的，在这种情况下，输入将是

，其中是层数。这种不太受约束的 W^+ 空间被证明是更有体现力的。因为生成器学习了从低维潜在空间到高维图画空间的映射，它能够被看作是对图画流形的建模。

试验

为了展现 DragGAN 在图画处理方面的强壮才能，该研讨展开了定性试验、定量试验和融化试验。试验结果表明 DragGAN 在图画处理和点盯梢使命中均优于已有办法。

定性评价

图 4 是本文办法和 UserControllableLT 之间的定性比较，展现了几个不同物体类别和用户输入的图画操作结果。本文办法能够精确地移动操作点以抵达方针点，完成了多样化和天然的操作作用，如改动动物的姿态、轿车形状和景象布局。相比之下，UserControllableLT 不能忠实地将操作点移动到方针点上，往往会导致图画中呈现不想要的改变。