欢迎点赞保藏重视哟
首先共享之前的所有文章 >>>>
文章合集 : juejin.cn/post/694164…
Github : github.com/black-ant
CASE 备份 : gitee.com/antblack/ca…
一. 前语
一年不到,AI对日子和作业的影响现已逐步表现。所以千万别掉队了,或许 AI 不能成为咱们的首要作业,可是怎样借助 AI 完结副业的扩展同样值得考虑。
这一篇就来讲一个 AI 绘画东西,这个东西我也是才上手不久,所以我把这其间的一些笔记共享出来,希望我们都能融入到这个新的时代。
Stable Diffusion
stable diffusion 本质上是一个 AI 绘图生成东西,我想我们必定听说过它的竞品 : Midjourney 。
之所以挑选 Stable Diffusion 的首要原因便是它免费,本地就能够搭建,开源资源丰富 , 合适咱们这些业务人员去折腾。
实测 4060 笔记本显卡一张图 1024 巨细的图大概在 10S 左右 , 假如嫌慢没关系, 阿里云买一个抢占式的 GPU 服务器再部署一套到云环境上面,一小时也只要3块钱。
关于其间呈现的一些名词 :@ 参阅文档
- 欠拟合 :指模型不能在练习集上取得好的结果。学了又如同没有彻底学会
- 过拟合 :指在练习集上表现很好,可是测试集上表现很差
- 不收敛 : 练习失败,底子没学会
- 泛化才能 :指的AI对未知样本的推理、适应才能
二. 装置和运用
根底装置太简略了,公然玩图的大佬都是热心肠,这儿引荐直接运用 sd-webui-aki Bilibili 地址。
发动的效果便是这样,入门运用只需求重视2个点 :
- 模型办理 : 在各模型网站下载对应模型后增加进去即可
- 一键发动 : 直接发动运转
几个好用的模型网站 :
- 土司 : tusiart.com/
- civitai : civitai.com/
- liblib : www.liblib.ai/
三. 运用办法
整个主界面大致如下 ,来简略说一下其间这些要害的信息 :
001 : 根底模型是什么?
模型便是咱们在上述模型网站中找到的喜欢的模型,模型许多,咱们只需求找到自己想要生成的去下载即可 :
下载完模型后,将模型增加到东西的模型办理中,然后在主界面模型旁边点击刷新就能运用上去。
模型也有对应的类型,这儿简略概述下 :
- LoRA :通常用于人物和概念,体积小且控图效果好,常用于固定角色特征
- Checkpoint : 体积较大,用于操控画风
- Embedding : 适用于操控画风和人物,相对速度中等
- Dreambooth : 能够用于人物,概念和画风,对配置要求较高
对我这种新手来说基本上不重视这个,模型练习或许是后续的实践中才需求运用到。
002 : VAE 模型是什么 ?
Variational autoenconder,中文叫变分子编码器 ,首要的效果便是滤镜。在出图的时分会影响色彩和线条
一般大模型里边都会自带 VAE , 出图假如有问题才或许需求用到它。
尝试了一下,左边的为原厂模型,右边加了其他 VAE. 尽管不明显,可是在色彩上还是有一些色差。
003 / 004 : 提示词怎样写 ?
提示词分为正向提示词和反向提示词 ,
-
正向提示词 :
- 经过提示词 来指定生成的图画
- 提示词的顺序会影响到图画的生成 ,前面的提示词权重更大
-
扫除词 :
- 用于指定图画中
不希望
呈现的东西 (低质量,小图,五官不全)
- 用于指定图画中
-
权总 :
- stable diffusion 支撑对提示词进行权重设置,点击提示词按
Ctrl + 上下方向键
- stable diffusion 支撑对提示词进行权重设置,点击提示词按
那么提示词该怎样去找,去哪里找呢?
方案一 : 经过 Stable Diffusion 的东西反推提示词
直接把图片拖进去,就能得到对应的提示词,后续直接运用即可。
方案二 : 去模型网站或者图站查找提示词
一般下载的模型下面都能找到一些效果图,点进去就能看到对应的提示词
方案三 : 找 GPT 问或直接写
005 :步数的效果是什么 ?
- 迭代每一步都是在前一步的根底上进行处理
- 低的采样步数会导致画面计算不完整,高的采样步数仅在细节处进行优化,比照输出速度因小失大
006 :采样办法有什么用 ?
采样办法指的是模型生成图画时所采用的战略,决定了怎样从模型的输出散布中挑选样本。
@ 具体介绍 post.smzdm.com/p/aev65x7z/
@ 具体原理 zhuanlan.zhihu.com/p/612572004
@ (引荐比照看看)关于不同出图效果 zhuanlan.zhihu.com/p/625556566
不是很了解,帮不了太多,可是文档我给你们找好了呀!!!
上文界面里边的采样办法首要有以下区别 :(PS 这一块网上资料也不多,只能做到这个地步了
)
算法 | 速度 | 步数 | 优 / 缺陷 | 场景 |
---|---|---|---|---|
Euler a | 20-30 | 1. 适当的步长出图更快 2. 步长过大会过度拟合,图画变形 3. 富有创造力 |
ICON , 二次元,小场景 | |
Euler | 20-30 | – 根据Karras论文 | ||
LMS | 30+ | 1. 效果一般,比较抽象 , 质感OA,饱和度与比照度偏低,更倾向于动画的风格 2. 线性多步调度器(Linear multistep scheduler) |
||
Heun | 20-30 | – 根据Karras论文 | ||
DPM2 | 20-30 | 该采样办法对tag的利用率最高,简直占80%+ | ||
DPM2 a | 25-30 | 简直与DPM2相同,对人物或许会有特写 | ||
DPM++ 2S a | 20-30 | |||
DPM++ 2M | 20-30 | |||
DPM++SDE | 慢 | |||
DPM++2S a Karras | 慢 | – 在每个时刻步长中履行多次操作 – 平等分辨率下细节更多 – 步长越多细节越明显 |
写实人物,复杂场景 | |
DPM++ 2M Karras | 20-30 | 1. 是二阶扩展概率模型求解的算法 2. 能够在速度和质量之间平衡 | ||
DPM ++ SDE Karras | 慢 | 8-12 | ||
DDIM | 慢 | 10-15 | 1. 步数越多细节越丰富 2. 收敛快,能够快速生成高质量图画 |
写实人像,复杂场景刻画 |
UniPc | 20-30 | |||
DPM adaptive | 10 | |||
LMS Karras | 20 | 会大改成油画的风格,写实欠安 | ||
DPM2 Karras | 20-30 | |||
DPM2 a Karras | 20-30 |
007 :关于图画巨细 ?
- 图画越大,从而需求往图片中加入更多的元素,越简单呈现低质量的信息
- 假如图画巨细相同,相同的提示词或许会呈现类似的结果,可是巨细一旦改变,图画的改变就极大
- 图画越大,花的时刻必定就会越长
- 总结 : 图画不是越大越好,过大的图画反而影响全体质量。
关于宽度 :
- 引荐 512 x 512 ,一般模型都是在这个根底上进行计算的
- 宽带必须是 8 的倍数
- 宽度不合适太大,简单呈现图画崩溃
- 高度同理
008 :CFG Scale (提示词引导系数 )
- 操控图画与提示词之间的契合度,这个值越高,生成的图画也越接近你的提示词
- 这个值一定程度上会降低图画质量,因为相当于约束了范围
- 主张 7- 15
其他功用补充 :
随机种子的效果
- 随机种子能够协助咱们锁定图画范围 ,运用相同种子的时分能够生成类似的图画
- 相同的随机种子能够进步图画的可重复度和相似性,用于调优和优化模型
- 当运用 -1 随机种子时图画彻底随机,彻底无规律
总结
首篇完结,算是对这段时刻学习的一个总结,希望能对我们有所协助。
学无止境, 这个系列也是一直会保持更新。