之前树先生给咱们介绍过一个项目 DragGAN,现在正式开源了!
超炫酷项目来袭!DragGAN 火爆开源社区!
那还等什么,盘它!
DragGAN 是什么?
不同于 Stable Diffusion 与 Midjourney 运用的扩散模型,DragGAN 是一款根据生成对抗网络(GANs)技术的图片编辑项目。追根溯源,其实仍是 NVIDIA 的 StyleGAN 的衍生项目。
DragGAN 由两个首要部分组成:
榜首部分是根据特征的运动监督,经过控制起始点向方针点运动,完成图画的变形;
第二部分是新的点盯梢办法,即最近邻检索,经过在相同的特征空间上进行点盯梢,提高了效率,并防止了累计误差损失。
简略来说,它能够让你轻松掌控图片中的人物和动物,经过拖拽控制点和方针点来调整他们的位置、形状、姿态等等。目前这个项目在 Github 上现已斩获了 20K star 了,趋势榜榜首,足见其火爆程度!
布置要求
-
支撑 Linux 和 Windows,主张运用 Linux
-
内存 12 GB 以上
-
1–8 NVIDIA 高端 GPU
-
Python >= 3.8,PyTorch >= 1.9.0
-
CUDA toolkit >= 11.1
装置布置
装置进程,真是一把鼻涕一把泪,处处都是坑,先是在阿里 PAI 渠道栽跟头,折腾好久才发现是基础环境问题,后来又在装置办法上翻了车,官方的装置辅导也是各种报错。
一路艰难探索过来,现在将实测可行的一套布置办法带给咱们。
这儿咱们选择 AutoDL 云渠道,运用 Python 3.8,CUDA 11.8 的镜像,这个镜像的环境就现已满意项目要求了。
下载源码
git clone https://github.com/XingangPan/DragGAN.git
装置依赖
cd DragGAN
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
假如出现下面的报错,代表这个 pip 源里没有对应的版别。
修改 requirements.txt
文件,去除特定版别依赖,再次履行即可。
torch>=2.0.0
scipy
Ninja==1.10.2
gradio>=3.35.2
imageio-ffmpeg>=0.4.3
huggingface_hub
hf_transfer
pyopengl
imgui
glfw==2.6.1
pillow>=9.4.0
torchvision>=0.15.2
imageio>=2.9.0
下载模型
sh scripts/download_model.sh
运转
这儿选择运转 WebUI,看到 URL 就代表发动成功了。
# 运转 WebUI
python visualizer_drag_gradio.py
作用展示
运用上十分简略,鼠标在图中点点就行,红点是起始点,蓝点是方针点,完成图画的拖拽作用。
还能够控制区域图画,防止整体图画跟着变化。
很多人都以为这个项目能直接选一张照片,就能像 PS 相同进行 P 图了,其实并不是,至少目前还不支撑,上面你看到的这些图片都是经过训练而生成的模型,所以本质上,你是在操作一个模型,而非图片!
假如你想操作自己的图片,那么按官网说的,你需求运用到 PTI 项目,将你自定义的图片训练成 StyleGAN 模型。
这部分内容下期再介绍,折腾 DragGAN 布置费了好大劲,有点累了,记住三连啊~