Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

2023-06-09 人工智能 67

【新智元导读】 Midjourney强敌来了！谷歌定制大师StyleDrop，将一张图片作为参阅，不管多复杂的艺术风格都能复刻。****

谷歌StyleDrop一出，瞬间在网上刷屏了。

给定梵高的星空，AI化身梵高大师，对这种抽象风格顶级理解后，做出无数幅相似的画作。

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

再来一张卡通风，想要制作的物体呆萌了许多。

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

甚至，它还能精准把控细节，设计出原风格的logo。

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

StyleDrop的魅力在于，只需要一张图作为参阅，不管多么复杂的艺术风格，都能解构再复刻。

网友纷纷表示，又是筛选设计师的那种AI东西。

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

StyleDrop爆火研讨便是来自谷歌研讨团队最新出品。

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

论文地址：arxiv.org/pdf/2306.00…

现在，有了StyleDrop这样的东西，不光能够更可控地绘画，还能够完结之前难以想象的精细工作，比方制作logo。

就连英伟达科学家将其称为「现象级」效果。

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

「定制」大师

论文作者介绍道，StyleDrop的灵感来源Eyedropper（吸色/取色东西）。

相同，StyleDrop相同期望咱们能够快速、毫不费力地从单个/少量参阅图画中「挑选」款式，以生成该款式的图画。

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

一只树懒能够有18种风格：

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

一只熊猫有24种风格：

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

小朋友画的水彩画，StyleDrop完美把控，甚至连纸张的褶皱都复原出来了。

不得不说，太强了。

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

还有StyleDrop参阅不同风格对英文字母的设计：

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

相同是梵高风的字母。

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

还有线条画。线条画是对图画的高度抽象，对画面生成构成合理性要求非常高，曩昔的办法一直很难成功。

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

原图中奶酪暗影的笔触复原到每种图片的物体上。

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

参阅安卓LOGO创造。

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

此外，研讨人员还拓展了StyleDrop的能力，不仅能定制风格，结合DreamBooth，还能定制内容。

比方，仍是梵高风，给小柯基生成相似风格的画作：

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

再来一个，下面这只柯基有种埃及金字塔上的「狮身人面像」的感觉。

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

怎么工作？

StyleDrop根据Muse构建，由两个关键部分组成：

一个是生成视觉Transformer的参数有用微调，另一个是带反应的迭代练习。

之后，研讨人员再从两个微调模型中组成图画。

Muse是一种根据掩码生成图画Transformer最新的文本到图画的组成模型。它包括两个用于根底图画生成(256 256)和超分辨率(512 512或1024 1024)的组成模块。

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

每个模块都由一个文本编码器T，一个transformer G，一个采样器S，一个图画编码器E和解码器D组成。

T将文本提示t∈T映射到接连嵌入空间E。G处理文本嵌入e∈E以生成视觉token序列的对数l∈L。S经过迭代解码从对数中提取视觉token序列v∈V，该迭代解码运转几步的transformer推理，条件是文本嵌入e和从前面步骤解码的视觉token。

终究，D将离散token序列映射到像素空间I。总的来说，给定一个文本提示t，图画I的组成如下：

图2是一个简化了的Muse transformer层的架构，它进行了部分修正，为的是支撑参数高效微调（PEFT）与适配器。

运用L层的transformer处理在文本嵌入e的条件下以绿色显现的视觉token序列。学习参数被用于构建适配器调优的权重。

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

为了练习，在许多情况下，研讨人员或许只给出图片作为风格参阅。

研讨人员需要手动附加文本提示。他们提出了一个简单的、模板化的办法来构建文本提示，包括对内容的描绘，后面跟着描绘风格的短语。

例如，研讨人员在表1顶用「猫」描绘一个目标，并附加「水彩画」作为风格描绘。

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

在文本提示中包括内容和风格的描绘至关重要，由于它有助于从风格中别离出内容，这是研讨人员的首要目标。

图3则是带反应的迭代练习。

当在单一风格参阅图画（橙色框）上进行练习时，StyleDrop生成的一些图画或许会展现出从风格参阅图画中提取出的内容（红色框，图画背景中含有与风格图画相似的房子）。

其他图画（蓝色框）则能更好地从内容中拆分出风格。对StyleDrop进行好样本（蓝色框）的迭代练习，成果在风格和文本保真度之间取得了更好的平衡（绿色框）。

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

这里研讨人员还用到了两个办法：

-CLIP得分

该办法用于测量图画和文本的对齐程度。因此，它能够经过测量CLIP得分（即视觉和文本CLIP嵌入的余弦相似度）来点评生成图画的质量。

研讨人员能够挑选得分最高的CLIP图画。他们称这种办法为CLIP反应的迭代练习（CF）。

在试验中，研讨人员发现，运用CLIP得分来点评组成图画的质量是提高召回率（即文本保真度）的有用办法，而不会过多丢失风格保真度。

但是从另一方面看，CLIP得分或许不能彻底与人类的目的对齐，也无法捕捉到奇妙的风格特点。

-HF

人工反应（HF）是一种将用户目的直接注入到组成图画质量点评中的更直接的办法。

在强化学习的LLM微调中，HF现已证明了它的强大和有用。

HF能够用来补偿CLIP得分无法捕捉到奇妙风格特点的问题。

现在，已有大量研讨重视了文本到图画的分散模型的个性化问题，以组成包括多种个人风格的图画。

研讨人员展现了怎么以简单的办法将DreamBooth和StyleDrop结合起来，从而使风格和内容都能实现个性化。

这是经过从两个修正后的生成散布中采样来完结的，分别由风格的s和内容的c指导，分别是在风格和内容参阅图画上独立练习的适配器参数。

与现有的成品不同，该团队的办法不需要在多个概念上对可学习的参数进行联合练习，这就带来了更大的组合能力，由于预练习的适配器是分别在单个主题和风格上进行练习的。

研讨人员的全体采样过程遵循等式(1)的迭代解码，每个解码步骤中采样对数的办法有所不同。

设t为文本提示，c为无风格描绘符的文本提示，在步骤k计算对数如下：

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

其中：用于平衡StyleDrop和DreamBooth——假如为0，咱们得到StyleDrop，假如为1，咱们得到DreamBooth。

经过合理设置，咱们就能够得到合适的图画。

试验设置

现在为止，还没有对文本-图画生成模型的风格调整进行广泛的研讨。

因此，研讨人员提出了一个全新试验计划：

-数据搜集

研讨者搜集了几十张不同风格的图片，从水彩和油画，平面插图，3D渲到不同材质的雕塑。

-模型配置

研讨人员运用适配器调优根据Muse的StyleDrop 。关于一切试验，运用Adam优化器更新1000步的适配器权重，学习速率为0.00003。除非还有说明，研讨人员运用StyleDrop来表示第二轮模型，该模型在10多个带有人工反应的组成图画上进行练习。

-点评

研讨报告的定量点评根据CLIP，衡量风格一致性和文本对齐。此外，研讨人员进行了用户偏好研讨，以点评风格一致性和文本对齐。

如图，研讨人员搜集的18个不同风格的图片，StyleDrop处理的成果。

能够看到，StyleDrop能够捕捉各种款式的纹路、暗影和结构的细微差别，能够比曾经更好地操控风格。

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

为了进行比较，研讨人员还介绍了DreamBooth在Imagen上的成果，DreamBooth在Stable Diffusion上的LoRA实现和文本反演的成果。

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

详细成果如表所示，图画-文本对齐（Text）和视觉风格对齐（Style）的人类评分（上）和CLIP评分（下）的点评目标。

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

(a) DreamBooth，(b) StyleDrop，和 (c) DreamBooth + StyleDrop的定性比较：

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

这里，研讨人员应用了上面提到的CLIP分数的两个目标——文本和风格得分。

关于文本得分，研讨人员测量图画和文本嵌入之间的余弦相似度。关于风格得分，研讨人员测量风格参阅和组成图画嵌入之间的余弦相似度。

研讨人员为190个文本提示生成总共1520个图画。尽管研讨人员期望终究得分能高一些，但其实这些目标并不完美。

而迭代练习（IT）提高了文本得分，这符合研讨人员的目标。

但是，作为权衡，它们在第一轮模型上的风格得分有所降低，由于它们是在组成图画上练习的，风格或许因挑选偏见而偏移。

Imagen上的DreamBooth在风格得分上不及StyleDrop（HF的0.644对比0.694）。

研讨人员注意到，Imagen上的DreamBooth的风格得分添加并不明显（0.569 → 0.644），而Muse上的StyleDrop的添加愈加明显（0.556 →0.694）。

研讨人员剖析，Muse上的风格微调比Imagen上的更有用。

别的，在细粒度操控上， StyleDrop捕捉奇妙的风格差异，如色彩偏移，层次，或锐角的把控。

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

网友热评

要是设计师有了StyleDrop，10倍速工作效率，现已起飞。

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

AI一天，人世10年，AIGC正在以光速开展，那种晃瞎人眼的光速！

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

东西只是适应了潮流，该被筛选的现已早被筛选了。

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

关于制作Logo来说这个东西比Midjourney好用得多。

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

参阅资料：

styledrop.github.io/

Git GitHub 架构艺术谷歌