【白话科普】10分钟从零看懂AI绘画原理

【白话科普】10分钟从零看懂AI绘画原理

腾小云导读

核算机怎么生成和实在图片相似的图像?模型是怎么听懂咱们想要它生成什么并给出对应成果?AIGC 热潮中的 Stable Diffusion、NovelAI、Latent upscale、ControlNet、LoRA等等是什么以及有什么亮点?本篇不触及任何一个数学公式、不触及晦涩文献解析,而是经过尽或许直白的解说,让没有太多AIGC布景知识的人也能够快速了解 AI 画画背面的技能原理和开展前史。欢迎阅览和共享。

看目录点保藏,随时涨技能

1. 核算机怎么生成图像?

2. 怎么操控画面内容?

2.1 怎么了解文本?

2.2 怎么操控生成的成果?

3. 为什么 AI 画画作用如此惊人?

4. ControlNet:让咱们操控分散模型

5. 潜在上限

6. LoRA:大型言语模型的低秩自适应

7. mov2mov

AI 画画这个范畴开展太快了,要知道去年的 AI 画画仍是这个画风:

【白话科普】10分钟从零看懂AI绘画原理

现在的 AI 画画现已敏捷进化到这个程度,咱们举个例子:

施法咒语长这样——

film still, [film grain], large crowds, cyberpunk street, street level photograph, Chinese neon signs, time square advertisements, Dark atmospheric city by Jeremy Mann, Nathan Neven, James Gilleard, James Gurney, Makoto Shinkai, Antoine Blanchard, Carl Gustav Carus, Gregory Crewdson, Victor Enrich, Ian McQue, Canaletto, oil painting, brush hard, high quality, (brush stroke), matte painting, (very highly detailed)

生成成果长这样——

【白话科普】10分钟从零看懂AI绘画原理

关于近期各个作用惊人的模型,现在市面上现已有不少介绍文章,但大部分比较晦涩难明。所以本文将尽或许浅显、直白地解说 AI 绘画的原理,欢迎各位阅览。开发者朋友们在阅览完本篇后,能够进一步阅览本大众号今天推送的次条文章,跟随腾讯工程师的教程快速布置 Stable Diffusion Web UI,以及《给想玩AIGC的小白:教你从0搭一个图文视频生成网站(附插件&源码)》一文,上手打造AI绘画网站~

点下方重视并星标腾讯云开发者,回复**「AIGC」,一键收取0根底AI绘画****网站建立教程、模型源件、东西插件、网站源码和布置模型所需GPU服务器定量优惠券。**

01、核算机怎么生成图像

这章咱们会说到几个咱们耳熟的概念:VAE、auto-encoder、GAN、Diffusion model 等等。阅览完这章,你将能有更明晰认知。言归正传,AI 是怎么学会画图的呢?

这就要触及到两个方面了。一个是能生成像实在图片相同的数据,一个是要听得懂咱们想要它生成什么,并给出对应的成果。

首要来看看怎么生成像实在图片相同的数据。这触及到机器学习中的一个重要分支——生成模型(generative model)。关于生成图像这个使命来说,通常一个生成模型需求先吞进许多的练习数据(巨量的人类实在图片),然后再学习这些数据的散布,去模仿着生成相同的成果。机器学习的核心无非便是这么回事,难点终究是在怎么规划模型、让模型能更好的学到这样的散布上。

要讲生成模型,有一个不得不提的技能便是 VAE(变分自编码器,即 variational auto-encoder)。这其间的 auto-encoder,尽管叫 auto-encoder ,可是其实包含了编码器 encoder 和解码器 decoder,是一个对称的网络结构。关于一系列相似的数据例如图片,尽管数据量很大,可是契合一定散布规律的,信息量远小于数据量。编码器的意图便是把数据量为 n 维的数据紧缩成更小的 k 维特征。这 k 维特征尽或许包含了原始数据里的一切信息,只需求用对应的解码器,就能够转换回本来的数据。在练习的进程中,数据经过编码器紧缩,再经过解码器解压,然后最小化重建后数据和原始数据的差。练习好了今后,就只有编码器被用作特征提取的东西,用于进一步的作业,例如图像分类等运用中。故,称为 autoencoder。

【白话科普】10分钟从零看懂AI绘画原理

这时候有人想到:已然 auto-encoder 能够从 k 维特征向量恢复出一整张图片,那给你一个随机生成的 k 维特征向量,是否也能够随机生成什么画面呢?

然而实践成果显现,autoencoder 尽管能够「记住」见过的相片,可是生成新图像的才干很差。所以就有了 variational auto-encoder。VAE 令 k 维特征中的每个值变成了契合高斯散布的概率值,所以概率的改变能够让图片信息也有相应的滑润的改变,例如某个操控性别的维度,从 0 到 1 能够从一个男性的人脸开端,生成越来越女人化的人脸。

【白话科普】10分钟从零看懂AI绘画原理

经过操控特征变量来操控人脸生成成果。

VAE 其实仍是有许多统计假设的,并且咱们要判别它生成的作用怎么,也需求评价它生成的数据和原始数据的差距大不大。所以有人丢掉一切统计假设,并且把这个评价真(原始数据)假(生成数据)差异的判别器也放进来一同练习、创造了 GAN,生成对立神经网络。

GAN 有两个部分——生成器和判别器。生成器从一些随机的 k 维向量出发,用采样网络组成大许多的 n 维数据,判别器就担任判别组成出来的图片是真是假。

一开端组成出来的都是意义不明的无规律成果,很简略的判别器就能够分辨出来。生成器发现一些生成的方向,例如有成块的色块能够骗过判别器,它就会往这个方向组成更多的图片。而判别器发现上圈套过去了,就会找到更杂乱的特征来区分真假。如此重复,直到生成器生成的成果,判别器现已判别不出真假了,这就算是练习好了。这样练习出来的生成器能够生成十分传神的、即使是人眼也很难分辨的图片,可是是不存在的。到了这时候,核算机现已能学会生成适当传神的画面了,例如下面这张人脸:

【白话科普】10分钟从零看懂AI绘画原理

尽管 GAN 因为引进了判别器,能生成十分传神的图片,可是它因为要练习对立网络,实在是太不稳定了,面对吞噬了网络巨量数据的超大规模网络来说十分难以操控。这时候另一个更好的挑选呈现了。也是现在的 AI 画画遍及运用的生成模型——Diffusion model(分散模型)。

Diffusion model 生成图片的进程看似很简略,其实背面有一套十分杂乱的数学理论支撑。杂乱的理论先放一边,咱们先浅显地聊聊 Diffusion model 是怎么运行的。

【白话科普】10分钟从零看懂AI绘画原理

上图是 Diffusion model 运行的两个进程。右边是一个正常的图片,从右到左(Forward Diffusion)做的作业是在逐次叠加契合正态散布的噪声,最终得到一个看起来彻底是噪声的图片,这便是所谓的“分散(diffusion)”进程。你能够不谨慎地想象成你有一块牛排,你一遍一遍地往上撒椒盐,一直到整块牛排都被椒盐覆盖到看不清本来的纹理。因为每次加噪声只和上一次的状况有关,所以是一个马尔科夫链模型,其间的转换矩阵能够用神经网络猜测。

从左到右(Reverse Diffusion)做的作业是一步步去除噪声、试图复原图片,这便是 diffusion model 生成数据的进程。

为了到达去噪的意图,Diffusion model 的练习进程实践上便是要从高斯噪声中复原图片,学习马尔科夫链的概率散布、逆转图片噪声,使得最终复原出来的图片契合练习集的散布。

这个去噪的网络是怎么规划的呢? 咱们能够从叠加噪声的进程中发现,原图和加噪声后的图片尺度是彻底相同的!所以很天然能想到用一个 U-net 结构(如下图)来学习。

【白话科普】10分钟从零看懂AI绘画原理

U-net 是一个相似 auto-encoder 的漏斗状网络,但在相同尺度的 decoder 和 encoder 层添加了直接的衔接,以便于图片相同位置的信息能够更好经过网络传递。在去噪使命中,U-net 的输入是一张带噪声的图片,需求输出的是网络猜测的噪声,groundtruth 是实践叠加上的噪声。有了这样一个网络,就能够猜测噪声,然后去除去它,复原图片。因为带噪声的图片=噪声+图片。这也是为什么 Diffusion model 会比其他办法生成图片更慢,因为它是需求一轮一轮去噪的,而不是网络能够一次性推理出成果。

以上便是 Diffusion model 生成图片的原理,是不是很简略呢!

02、怎么操控画面内容

上面解说了核算机怎么生成和实在图片相似的图像。接下来解说一下模型是怎么了解咱们想要它生成什么,并给出对应的成果的。

2.1怎么了解文本?

玩过 AI 画画的人应该都知道,AI 画画最主流的形式是在网页输入框中输入一长串吟唱咒语。其间包含想要生成的内容主体、风格、艺术家、一些 buff 等,点击生成后就能够得到一张十分 amazing 的成果(也或许很吓人)。

文字操控模型生成画面最早的做法,其实更像是让生成模型生成一大堆契合常理的图片之后,再配合一个分类器来得到契合条件的成果。在海量的数据面前这显然是不够用的。这个范畴的开山之作——DALLE 中最值得一提的是引入了 CLIP 来衔接文字和图片。

CLIP 模型其实便是用了巨量的文本+图片数据对,把图片和文本编码后的特征核算相似性矩阵,经过最大化对角线元素一起最小化非对角线元素,来优化两个编码器,让最终的文本和图片编码器的语义能够强对应起来。

【白话科普】10分钟从零看懂AI绘画原理

假如不能了解 CLIP 的原理,只需记住 CLIP 把文字和图片对应起来了就能够了。它最大的成功之处不是用了多杂乱的办法,而是用了巨量的数据。这样带来的优点是,许多现有的图像模型能够很简略扩展成文本操控的图像模型。本来需求许多人工标示的许多使命,现在只需求用集大成的 CLIP 就能够了,乃至还或许生成新数据,例如在 StyleCLIP 里用文本交互操控生成的人脸:

【白话科普】10分钟从零看懂AI绘画原理

最开端图片的文字信息大多是以打标签的形式经过许多人工标示来完结,有了CLIP 今后能够说是彻底打通了文字和图片之间的桥梁,使得图像相关的使命得到大大的扩展。说是 AI 画画的柱石也不过分。有了这个 CLIP 模型,就能够核算任意图片和文本之间的关联度(即 CLIP-score),拿来指导模型的生成了。

这一步其实还分了几个开展阶段。最开端用的办法(Guided Diffusion)很naive:每次降噪后的图片,都核算一次和输入文本之间的 CLIP-score。本来的网络只需求猜测噪声,现在网络不但要猜测噪声还需求让去噪后的成果图尽或许和文本挨近(也便是 CLIP-loss 尽量小)。这样在不断去噪的进程中,模型就会倾向于生成和文本相近的图片。因为 CLIP 是在无噪声的图片上进行练习的,这边还有一个小细节是要对 CLIP 模型用加噪声的图片进行 finetune,这样 CLIP 才干“看出”加噪声后的牛排仍是一块牛排。

【白话科普】10分钟从零看懂AI绘画原理

这样做的优点是 CLIP 和 Diffusion model 都是现成的,只需求在生成进程中结合到一同。但缺陷是本来就现已很慢的 Diffusion model 生成进程变得更慢了,并且这两个模型是独立、没法联合练习,得到更进一步的提升。

所以就有了 Classifier-Free Diffusion Guidence,模型一起支撑无条件和有条件的噪声估计,在练习 Diffusion model 时就参加文本的引导。这样的模型当然也离不开许多许多的数据和许多许多的卡,除了网络爬取,还有经过商业图库构造出巨量的图片和文本对,最终做为制品的 GLIDE 在生成作用上又到达了一次飞跃。尽管现在看有点粗陋,可是在其时来说现已很惊人了,恭喜咱们,看到这儿现已追上了AI绘画 21 年底的进展!

【白话科普】10分钟从零看懂AI绘画原理

2.2怎么操控生成的成果?

再衍生一下:假如你试过用 AI 给你画头像,这时候输入条件就变成了图片,那么这样要怎么操控生成的成果呢? 这儿有几种不同的办法,其实算是不同流派了。这儿咱们将介绍3种:

第一种是直接提取图片的 CLIP 特征。 就像文字特征相同去引导图片。这样生成出来的图片的内容比较相近,但结构不一定相同。例如下图,模型生成了相似的内容可是画风略微怪诞!

【白话科普】10分钟从零看懂AI绘画原理

第二种特别好了解,现在主流的 AI 画画 webui 里的 img2img 都是选用这个办法。 便是对输入的原图添加几层噪声,再以这个为根底进行惯例的去噪。运用你期望的画风相应的「咒语」,就能够生成和你原图结构相似但画风彻底不同的图片。

叠加的噪声的强度越高,生成的图片和原图就差距越大,AI 画画的发挥空间就越大。

【白话科普】10分钟从零看懂AI绘画原理

上图是用这个办法生成的二次元形象,你把屏幕放远点看这两张图的色块是相近的。因为右边的图片便是根据左面叠加了厚厚的“椒盐”来作为根底生成的,大致的色块结构依然保留了,但模型也加上了自己的想象(经过文本引导)。

第三种办法是用对应的图片去 finetune 生成网络(Dreambooth),如下图。给模型看许多许多小狗狗的图,让模型学到这只小狗狗的姿势,这样只需求再加上一些简略的词汇就能够生成各种各样的小狗狗。

【白话科普】10分钟从零看懂AI绘画原理

03、为什么 AI 画画作用如此惊人——几个里程碑级模型

上面解说了核算机怎么生成和实在图片相似的图像,以及模型是怎么听懂咱们想要它生成什么并给出对应成果的。到此,AI 画画的根本原理现已介绍得差不多了。咱们能够发现,其实大部分都是「改善」的作业,可是作用是真的很惊人!在这期间,触及到许多练习网络的 tricks。

现在最炽热的模型便是 Stable Diffusion,因为开源且作用好,得到了许多人喜欢。另外根据此,吸收了巨量二次元插画的 NovelAI 也在二次元画风上异军突起,乃至在炽热程度上和 Stable Diffusion 比较,有过之而无不及。

讲 Stable Diffusion 为什么这么好,要先从 Latent Diffusion Model 谈起。

让咱们来复习一下 diffusion model 的原理:

【白话科普】10分钟从零看懂AI绘画原理

对一个带噪声的输入图片,练习一个噪声猜测 U-net 网络,让它能猜测噪声,然后再从输入中减去,得到去噪后的图片。

一般的 diffusion model 是对原始图片进行加噪去噪,噪声图片和原始图片尺度是相同的。为了节约练习资源和生成时刻,通常会用较小的图片尺度练习,再接一个超分辨率模型。

【白话科普】10分钟从零看懂AI绘画原理

而在 Latent Diffusion Model 中,diffusion 模块被用于生成 VAE 的隐编码。所以整个流程变成了这样:

【白话科普】10分钟从零看懂AI绘画原理

图片先用练习好的 VAE 的 encoder 得到一个维度小得多的图片隐编码(能够了解为将图片信息紧缩到一个尺度更小的空间中),diffusion model 不再直接处理原图而是处理这些隐编码,最终生成的新的隐编码再用对应的 decoder 复原成图片。相较于直接生成图片像素,大幅度削减核算量与显存。

第二个改善是添加了更多的练习数据,并且还多了一个美学评分的过滤指标——只选好看的图片。这就像是假如想要学会画美丽的画,就要多看看大艺术家们的 masterpieces 相同。

练习集里都是美丽的图片,例如这样的:

【白话科普】10分钟从零看懂AI绘画原理

或许这样的:

【白话科普】10分钟从零看懂AI绘画原理

含糊的图、有水印的图都被 pass 了,让机器只从美丽图片里学画画。

最终比较 Latent Diffusion Model 的改善,是用上文说到的 CLIP 来让文本操控图片的生成方向。

这儿也提一下二次元画风的 NovelAI。其实在技能上没有十分新的内容,便是拿巨量二次元图片去 finetune 原始 Stable Diffusion 模型。首要一些改善是 CLIP 用了倒数第二层更靠近文本内容的特征、把练习数据扩展为长宽比不限(为了能包容下完整的人像)、添加了可支撑文本输入长度然后让咒语变得更灵敏也更杂乱。笔者个人认为作用好仍是因为吞了巨量的图片,外加用户的热心让这个模型敏捷发扬光大,乃至还有《元素法典》、《参同真解》等许多咒语书,更衍生出了许多辅助绘制东西~

04、ControlNet:让咱们操控分散模型

因为 diffusion 超强的学习才干,理论上网络是能够复原出练习集里的每一张数据的。所以只需数据足够多、足够好,模型就能够生成十分好的图片。和人学画画不同,假如人的难点是画不出来,那么模型就不知道该往哪个方向画。所以操控模型生成其实便是想办法让模型听话,依照你的指示生成成果。

在上文中,简略展示过 AI 画画中 img2img 的作用。原理是把左图加一些高斯噪声(撒撒黑胡椒)然后作为底图来根据它生成。所以根本上色块散布是挨近的,可是很难操控的更细节。

【白话科普】10分钟从零看懂AI绘画原理

今年引起爆炸性论题的 ControlNet,则是能够经过任何的条件操控网络生成。本来模型只能得到一个文本的生成引导,现在它能够听懂任何根据图片提取的信号了,只需你拿一组成对的图片去练习!

这个办法出来今后极大地扩展了可玩性,并且官方现已供给了十分多常用的练习好的操控网络。你能够用 depth 操控结构生成各种场景:

【白话科普】10分钟从零看懂AI绘画原理

能够直接拿线稿上色:

【白话科普】10分钟从零看懂AI绘画原理

能够随便涂几笔就生成杂乱的图片:

【白话科普】10分钟从零看懂AI绘画原理

还能够经过姿势检测生成很好的多人成果:

【白话科普】10分钟从零看懂AI绘画原理

【白话科普】10分钟从零看懂AI绘画原理

只需你想,你乃至能够自己练习。比如说就有人练习了手脚的操控器,处理了 ai 不会画手的问题:

【白话科普】10分钟从零看懂AI绘画原理

【白话科普】10分钟从零看懂AI绘画原理

这些操控成果还能够一同用,例如结合人体姿势和深度图:

【白话科普】10分钟从零看懂AI绘画原理

乃至不需求来自同一张图:

【白话科普】10分钟从零看懂AI绘画原理

作用是真的十分惊艳,但原理上其实完成得比较简略。为了给原始模型添加额定的条件输入,把整个网络仿制了一份,固定原始网络来确保输出的稳定性。原始的网络输入依然是噪声,而仿制的 control 网络的输入是操控条件(深度、姿势等)。把两个输入和输出加起来,用成对的数据集(输入是深度图,输出是原图这种感觉)去练习操控网络,到达操控条件能够很好操控生成成果的程度,就练习好啦!并且这个练习本质上仍是在做 finetune,所以耗时也不算很大,和直接 finetune 网络差不多。

【白话科普】10分钟从零看懂AI绘画原理

05、潜在上限

ControlNet 处理了多人的姿势操控今后,模型现已能够很好地生成十分合理的结构了。这时候就会面对另一个问题,模型的细节要怎么生成得更好?

想要得到高质量的图片,最直接的办法便是调大输出的分辨率。分辨率越大,细节画得就越好(尤其是人脸)。可是实践上高分辨率的成果十分简略崩掉,例如呈现两个身体时因为练习模型里如此高分辨率的图片较少。并且分辨率高了今后核算成本飙升,会算得很慢。

【白话科普】10分钟从零看懂AI绘画原理

所以一种常见的做法是先生成较小分辨率的成果,然后对图片做超分(便是把图片扩大还要确保明晰度),流程如下。

【白话科普】10分钟从零看懂AI绘画原理

这么做能够确保结构的合理性,并且速度快十分多。可是超分模型对细节的补完不一定能做得很天然,并且简略有过于锐化的成果。除了传统超分模型,还有相同根据 diffusion 模型的超分算法。因为 diffusion 适当于重绘了,所以能够得到更好的细节作用。可是图片尺度十分大,跑起来更慢了。

另一个现在被广泛运用的办法是 latent upscale(webui自带的Hires.fix即可完成),流程如下。

【白话科普】10分钟从零看懂AI绘画原理

之前写到过,stable diffusion 的结构优势之一是它是由紧缩图片信息的 VAE 和对 latent 进行去噪的 U-net 网络组成,所以它天然适合根据 latent 的超分办法。

Latent upscale 便是在图片经过 VAE 紧缩后,直接对 latent 进行超分,然后再喂给 VAE,就能得到 x2 的图片了。假如和 stable diffusion 结合,那便是 SD 的U-net 输出 latent 今后,先过一遍 latent upscale,再喂给 VAE 解码。

当然,对 latent 做 upscale 也有根据 diffusion 的办法并且作用应该是最好的。当然于此而来的代价便是耗时也添加了。对图片做一般超分和对 latent 做根据 diffusion 的超分成果比照如下。

【白话科普】10分钟从零看懂AI绘画原理

个人认为作用好首要是因为 diffusion,根据图片做 diffusion 超分应该也能够到达这个质量,只不过耗时更久。放一张 latent upscale + controlnet 得到的高清美图。

【白话科普】10分钟从零看懂AI绘画原理

06、LoRA:大型言语模型的低秩自适应

除了 ControlNet,近期 AI 画画范畴另一个不得不提的便是 LoRA,前面的水墨画美少女便是交融 LoRA 模型生成的。

要讲 LoRA 就要先解说模型的 finetune(微调)。模型的 finetune 指的是什么呢?其实便是当你有一个现成的,很厉害的大模型(pre-trained model),你想要让它学一些新知识,或许完结一些更面向详细运用的子使命,或许仅仅为了适配你的数据散布时,就需求拿你的小样本数据去对模型进行重新练习。这个练习不能训太久,否则模型就会过拟合到你的小样本数据上,丧失掉大模型的泛用性。

Pre-train + finetune 是机器学习中十分常见的组合,在运用上有很大价值。可是其间有一个问题便是“忘掉”:模型会在 finetune 进程中不断忘掉之前现已记住的内容。

常见的处理方案有两个:

  • replay:便是也把原始知识过一遍;

  • 正则化:经过正则项操控模型参数和原始参数尽量共同,不要变太多;还有一个是Parameter isolation(参数孤立化),这个是经过独立出一个模块来做 finetune,原有的模型不再更新权重。

参数孤立化是最有用的一种办法,详细有好几种完成办法。例如 Adaptor 便是在原模型中添加一个子模块、固定原模型,只练习子模块。是不是听起来很熟悉?是的,ControlNet 便是一种相似 Adaptor 的办法,同理还有 T2I-Adapter,也是经过添加子模块来引入新的条件输入操控。

【白话科普】10分钟从零看懂AI绘画原理

LoRA 则是另一种参数孤立化策略,也在 AI 画画找到了用武之地。它运用低秩矩阵来代替本来全量参数进行练习,然后提升 finetune 的效率。

【白话科普】10分钟从零看懂AI绘画原理

能够和之前最常用的 finetune 办法 DreamBooth 比照一下。

【白话科普】10分钟从零看懂AI绘画原理

关于 DreamBooth 来说,它是直接更新整个大模型的权重来让模型学习新概念的。尽管能够经过正则项避免忘掉,可是 finetune 后的模型依然十分大(和原模型相同大)。

【白话科普】10分钟从零看懂AI绘画原理

而运用 LoRA 后,LoRA 影响的仅仅其间一小部分(经过低秩矩阵叠加到大模型网络上的)权重,所以 finetune 起来更快,更不吃资源,并且得到的 finetune 模型十分小,运用起来便利许多。

因为 LoRA 在结构上是独立于大模型的,所以它有一个额定的优点是替换大模型能够得到不同的、令人惊喜的成果。例如用水墨画练习的一个很好看的 LoRA 模型“墨心”,结合国风美人的根底大模型,能够生成穿着中式服装的水墨画美少女:

【白话科普】10分钟从零看懂AI绘画原理

在网友写的《AI 形象生成指南》中,提出的办法便是运用能够生成亚裔女人的真人大模型,叠加从二次元大模型 finetune 出来的二次元女人形象LoRA,来生成带有角色特征的真人 coser 相片:

【白话科普】10分钟从零看懂AI绘画原理

并且 LoRA 也十分便利进行模型交融。例如说添加另一个韩国偶像 LoRA,得到的成果就交融了两者的特色:

【白话科普】10分钟从零看懂AI绘画原理

在运用上来说,LoRA 很像是模型的“插件”,能够在根底模型上叠加想要的作用,或许把各种想要的作用加权组合叠在一同,能够发生许多令人惊喜的成果。

当然 LoRA 由所以 finetune 模型,所以画风会趋于单一,是好是坏见仁见智,在需求固定画风 orID 的时候能发挥令人惊喜的用处。可是,运用实际中的真人相片练习 LoRA 并揭露模型十分缺德,请各位读者不要这么做。

07、mov2mov

讲完 LoRA 和 ControlNet 了再趁便提一嘴它们的结合产品—— mov2mov,其实原理上便是组合了之前的各种技能。例如 img2img 来确保布景和主体的连续性,controlnet 供给更多操控条件来增强对应性,还需求 LoRA 来确保输出的成果能尽量共同。

除此之外,传统的视频防抖算法如窗口滑润、插帧,这些 buff 全部叠加上去,才或许得到一个依然很抖的作用。可是其间最重要的是,你需求一个高质量的驱动视频。感兴趣的能够自行搜索了解。简直算是重绘 MMD 的情况下(简略中的简略形式了)视频作用依然不算理想,想要有更好的视频生成作用仍是有一段距离的。

以上是本次共享全部内容,欢迎咱们在谈论区共享交流。假如觉得内容有用,欢迎转发~阅览完本篇后,引荐各位进一步阅览本大众号今天推送的次条,跟随腾讯工程师的教程快速上手布置 Stable Diffusion Web UI,以及《给想玩AIGC的小白:教你从0搭一个图文视频生成网站(附插件&源码)》一文,上手建造你的AI 绘画网站~

点下方重视并星标腾讯云开发者,回复**「AIGC」,一键收取0根底AI绘画****网站建立教程、模型源件、东西插件、网站源码和布置模型所需GPU服务器定量优惠券。**

-End-

原创作者|周艺超

技能责编|周艺超

【白话科普】10分钟从零看懂AI绘画原理

程序员用现有 AIGC 代表产品(如GPT-4等)敞开的 API 接口,能够做哪些自研东西?有哪些新奇/有用的运用办法?

欢迎在大众号谈论区聊一聊你的创想。在4月17日前将你的谈论记录截图,发送给腾讯云开发者大众号后台,可收取腾讯云「开发者春季限定红包封面」一个,数量有限先到先得。咱们还将选取点赞量最高的1位朋友,送出腾讯QQ公仔1个。4月17日正午12点开奖。快邀请你的开发者朋友们一同来参与吧!

点下方重视并星标腾讯云开发者

大众号回复 「AIGC」

一键收取0根底AI绘画网站建立教程、模型源件、东西插件、网站源码和布置模型所需GPU服务器定量优惠券

阅览原文