导语 | 近些年AI蓬勃开展，在各行各业都有着不同方法的运用。而AI发明艺术和出产内容无疑是本年以来最抢手的论题，AI发明究竟发生过什么，原理又是怎样，是噱头仍是会有对咱们有用的潜在运用场景呢？咱们旨在深化浅出的测验答复这些问题。

AI发明怎样火了？

本年开端，文本描绘自动生成图片（Text-to-Image）的AI绘画黑科技一下子变火了。许多人对AI绘画产生巨大爱好是从一副AI著作的新闻开端的。这幅由MidJourney生成的数字油画参加了Colorado博览会的艺术竞赛，而且取得了榜首名。这个事件能够幻想的引起了巨大的争辩。（莫非300刀的奖金撬起了3千亿的市场？）

Jason Allen’s A.I.-generated work, “Thtre D’opra Spatial,” took first place in the digital category at the Colorado State Fair.Credit…via Jason Allen

Disco Diffusion是本年2月爆火的AI图画生成程序，能够依据描绘的场景关键词烘托对应的图片。本年4月，大名鼎鼎的OpenAI也发布了新模型DALL-E 2，命名来源于著名画家Dali和机器人总动员Wall-E，相同支撑Text-to-Image。在年头的时分，Disco Diffusion能够生成一些有气氛感的图片，但还无法生成精巧的人脸，但很快到了DALL-E 2后就能够十分清晰的画出人脸了。而现在到了Stable Diffusion在发明的精巧程度和作画速度上更上了一个新的台阶。

Disco Diffusion: Mechanical arm with a paint brush and a canvas by Li Shuxing and Tyler Edlin

DALL-E2: 将Johannes Vermeer 的名画“戴珍珠耳环的女孩”转化生成不同的面孔

Stable Diffusion: a beautiful painting of a building in a serene landscape

2022年8月，被视为当下最强的AI发明东西Stable Diffusion正式敞开，这无疑进一步给AI发明带来了最近的炽热。经过网站注册就能够运用，供给了便利简练的UI，也大大降低了这类东西的运用门槛，而且效率高，图画质量好。而假如不想花钱的话，Stable Diffusion还正式开源了代码、模型和weights，在huggingface上都能够直接clone和下载，部署到GPU上就能够随意用了。huggingface上一起也现已有了diffusers库，能够成为调包侠直接运用，colab上也都有现成的notebook example了。也因而热度，推出Stable Diffusion的AI公司StabilityAI完成了1亿美元的种子轮融资，公司估值达到了10亿美元。

Stable Diffusion开源后的查找热度现已保持两个月了

和机器学习刚开端火的时分相同，AI生成技能也并不是凭空出现的。仅仅近一两年以来，著作的质量和核算速度日益快速提升，让咱们忽略了AI绘画相同悠长的前史。

前史开展

AI绘画在核算机出现后不久就现已开端有了最初的探究。在70年的时分艺术家Harold Cohen就现已发明晰程序“AARON”进行绘画，而不同于现在的黑科技，其时AARON是真的去操作机械臂来画画。Harold对AARON的改善持续了好久，80年代的时分，ARRON能够测验画三维物体，而且很快就能够画彩图了。但AARON没有开源，所以它学习的是Harold自己的笼统色彩绘画风格。2006年，出现了The Painting Fool，有点类似AARON，经过调查相片提取颜色信息，运用实践中的材料进行发明，所以相同电脑程序经过学习信息就行物理绘画的方法。

现在咱们说的更多的“AI发明”的概念，更多的指的是依据Deep Learning模型进行自动作图的程序，这种绘画方法得益于近些年核算机软硬件的高速开展。2012年两位大神Andrew Ng和Jeff Dean进行了一次实验，运用1.6万个CPU和Youtube上一千万个猫脸图片用了3天练习了其时最大的深度学习网络，生成了一个猫脸。在现在看来这个成果不值一提，但对其时的CV领域来说，是具有突破性的含义的测验，而且正式敞开了AI发明的全新方向。

2006年，李飞飞教授发现了许多研讨工作在AI算法方面忽略了“数据”的重要性，于是带头开端构建大型图画数据集 – ImageNet，也因而图画识别大赛由此拉开帷幕，三年后李飞飞团队宣告了ImageNet的论文然后真正发布了ImageNet数据集，给AI发明供给了强壮的数据库。相同2006年，Geoffrey Hilton团队完成了GPU优化深度神经网络的方法，然后“深度学习”这个新名词的概念被提出，各种Neural Networks的技能手段开端不断出现，深度学习的开展也加快了AI在两个赛道Discriminative model和Generative model的开展。2012年的AlexNet，2014年的VGGNet，2015年的ResNet，2016年的DenseNet都是前者的经典模型。

而关于Generative model，2014年大神Ian Goodfellow提出了GAN，两个神经网络互相学习和练习，被认为是CV领域的重大突破，经过两个神经网络的相互博弈，使得生成的数据散布更挨近真实数据散布。从此2014年的GAN、VAE以及2016年的PixelRNN/CNN成为了三类主流的Generative models。2017-2018年深度学习结构也建造老练，PyTorch和Tensorflow成为首选结构，供给了许多图画处理的许多预练习模型，大大降低了技能门槛。2018年，Nvidia发布了Video-to-Video synthesis，它能够经过发生器、鉴别器网络等模块，组成高分辨率相片相同真实的视频，完成了把AI面向新的发明场景。GAN的大规模运用，也出现了许多依据GAN的模型迭代和优化，2019年BigGAN的出现让GAN的国际更强壮，由它练习生成的图画现已无法分辨真假了，被认为是其时最强的图画生成器。

可是GAN仍然存在一些缺陷，比方一些研讨中都有说到模型的稳定性和收敛较差，尤其是面临愈加复杂和多样的数据。更为重要的是，让生成的数据散布挨近真实数据散布，也便是挨近现有的内容的姿态相同会形成一个问题，便是生成的内容是十分挨近现有内容，挨近也便是无法突破带来艺术上的“立异”。

而2020年开端在图片生成领域研讨更多的Diffusion model克服了这些问题。Diffusion model的中心原理便是给图片去噪的进程中了解有含义的图画是怎样生成的，一起又大大简化了模型练习进程数据处理的难度和稳定性问题。所以Diffusion模型生成的图片比较GAN模型京都更高，且跟着样本数量和练习时长的累积，Diffusion model展示了对艺术表达风格更好的模拟才能。2021年的比照研讨标明，在相同的ImageNet的数据库练习后的图片生成质量，运用Diffusion model得到的FID评价成果要优于其时最好的Generative models BigGAN-deep等等。

正如最初说到，本年的AI抢手归于文本发明内容，而其实一直到2021年头，OpenAI发布的DALL-E其AI绘画水平也就一般，但这儿开端拥有的一个重要才能就能够依照文本描绘进行发明。然后本年2022年，在三座大山Stable Diffusion、DALL-E 2、MidJourney生成的各种画作中，现已引起了各种人群包含开发者、艺术家、美术工作者等等的爱好测验和争辩。Stable Diffusion的开源和简略的过滤器功用无疑将Text-to-Imagede的抢手和争议面向了高潮。

而很快大厂们不再只局限于图片，一起又推出了Text-to-Video的产品。Meta在刚过去的九月底宣告了新的AI产品Make-A-Video，运用者能够相同运用文本的方法出产简练和高质量的短视频，他们的阐明是体系模型能够从文本-图片配对数据中学习这个国际的姿态并从视频片段中推理没有文本情况下的国际改变。从完成场景来看也有多种运用方法，比方文本描绘不同类型的场景动作、运用单张或一对图片生成改变视频、在原始视频中参加额外的元素和改变，Meta也标明晰他们之后会发布demo东西。很快在十月初，Google也发布了他们新的AI产品Imagen Video，相同是运用文本出产视频的东西。Imagen Video还在研发阶段，但Google的学术论文标明晰这个东西能够经过文本描绘出产24 fps的分辨率在1280×768的视频，一起能够有风格化才能和物体3D旋转才能。文章还标明Imagen Video在文本内容的视频出现上也会相关于优于DALL-E和Stable Diffusion。又没过几天，Google和Phenaki宣告了另一个文本出产视频东西Phenaki，乃至能够出产2分钟以上较长的视频。Google一起也阐明晰“问题数据”关于AI模型的影响和潜在的危险，公司一直致力于谨慎过滤暴力和色情内容以及文化偏差等问题，因而短期内并不会开源Imagen Video模型，但咱们相信不久的将来，不论经过东西或许源代码的方法，这些cutting-edge的视频出产模型也会和图片出产模型相同很快和AI发明者们相见。

既然有了Text-to-Image和Text-to-Video，那Text-to-Speech必定也要蹭一下热度。10月中旬postcast.ai发布了一段音频是跟用AI生成的跟Steve Jobs的对话火了（新闻），从语音语调上听起来真的和Steve自己没有不同，彻底不像是机器人的声响。而技能供给方play.ht在他们的网站上也上线了新的这个十分有吸引力的功用Voice Cloning，上面供给各种名人的AI组成声响。他们并没有供给更多的技能信息，但看起来他们运用了2020年上线并在2021年底敞开的GPT3模型，一起从效果上看起来现已十分挨近拷贝真人的声响了。

技能解读

看到前史和一些生动的比方，是不是觉得AI生成各种内容现已就在眼前了？咱们能够随意写几句话就能生成精巧的图片、视频、声响满意各种需求了？可是实践操作上仍然会有许多的束缚。下面咱们就来适当剖析一下最近较热的文本生成图片和视频技能原理，究竟完成了什么功用以及相关的局限性在哪里，后面咱们再针对实践游戏内容做一些demo，更贴合运用场景的了解这些局限性。

（一）Text-to-Image技能

不同的AI图片生成器技能结构上会有不同，本文在最终也附上了一些重要模型的参考文献。咱们在这儿首要针对最近抢手的Stable Diffusion和DALL-E 2做一些解读和讨论。这类的AI生成模型的中心技能才能便是，把人类发明的内容，用某一个高维的数学向量进行表明。假如这种内容到向量的“翻译”满足合理且能代表内容的特征，那么人类一切的发明内容都能够转化为这个空间里的向量。当把这个国际上一切的内容都转化为向量，而在这个空间中还无法表明出来的向量便是还没有发明出来的内容。而咱们现已知道了这些已知内容的向量，那咱们就能够经过反向转化，用AI“发明”出还没有被发明的内容。

Stable Diffusion

Stable Diffusion的全体上来说首要是三个部分，language model、diffusion model和decoder。

Language model首要将输入的文本提示转化为能够输入到diffusion model运用的表明形式，一般运用embedding加上一些random noise输入到下一层。

diffusion model首要是一个时刻条件U-Net，它将一些高斯噪声和文本表明作为模型输入，将对应的图画添加一点高斯噪声，然后得到一个略微有噪点的图画，然后在时刻线上重复这个进程，关于略微有噪点的图画，继续添加高斯噪声，以取得更有噪点的图画，重复屡次到几百次后就能够取得彻底喧闹的图画。这么做的进程中，知道每个步骤的图画版别。然后练习的NN就能够将噪声较大的示例作为输入，具有猜测图画去噪版别的才能。

在练习进程中，还有一个encoder，是decoder的对应部分，encoder的方针是将输入图画转化为具有高语义含义的减缩采样表明，但消除与手头图画不太相关的高频视觉噪声。这儿的做法是将encoder与diffusion的练习分隔。这样，能够练习encoder取得最佳图画表明，然后在下游练习几个分散模型，这样就能够在像素空间的练习上比原始图画核算少64倍，由于练习模型的练习和推理是核算最贵的部分。

decoder的首要效果便是对应encoder的部分，取得分散模型的输出并将其扩大到完好图画。比方分散模型在64×64 px上练习，解码器将其进步到512×512 px。

DALL-E 2

DALL-E 2其实是三个子模块拼接而成的，具体来说：

一个依据CLIP模型的编码模块，方针是练习好的文本和图画encoder，然后能够把文本和图画都被编码为相应的特征空间。
一个先验（prior）模块，方针是完成文本编码到图画编码的转化。
一个decoder模块，该模块经过解码图画编码生成方针图画。

在本篇文章开端前，期望你能够了解go的一些根本的内存常识，不需要太深化，简略总结了如下几点：

从上面的模型拆解中能够看出，DALL-E 2和Stable Diffusion的text encoder都是依据openAI提出的CLIP，图画的生成都是依据diffusion model。其间，CLIP是学习任意给定的图画和标题（caption）之间的相关程度。其原理是核算图画和标题各自embedding之后的高维数学向量的余弦类似度（cosine similarity）。

（二）Text-to-Video技能

文本生成视频大约从2017年就开端有一些研讨了，但一直都有许多束缚。而从本年10月初Meta宣告了他们的产品Make-A-Video以及Google宣告了Imagen Video。这两款都是立异了Text-to-Video的技能场景。而这两款最新产品都是从他们的Text-to-Image产品衍生而言的，所以技能完成方法也是依据Text-to-Image的技能演变而成。

本质上来说咱们能够认为静态图片便是只有一帧的视频。生成视频需要考虑图片中的元素在时刻线上的改变，所以比生成相片会难许多，除了依据文本信息生成合理和正确的图片像素外，还必须推理图片像素对应的信息怎样随时刻改变。这儿咱们首要依据Make-A-Video的研讨论文做一下拆解。

Meta’s Make-A-Video

Make-A-Video正是建立在text-to-Image技能最新进展的基础上，运用的是一种经过时空分解的diffusion model将依据Text-to-Image的模型扩展到Text-to-Video的方法。原理很直接：

从文本-图画数据里学习描绘的国际长什么样（文本生成图画）
从无文本的视频数据中学习国际的改变（图画在时刻轴上的改变）

练习数据是23亿文本-图画数据（Schuhmann et al），以及千万级别的视频数据（WebVid-10M and HD-VILA-100M）。

全体上来说Make-A-Video也是有三个重要组成部分，一切的组成部分都是分隔练习：

依据文本图画pair练习的根本的Text-to-Image的模型，总共会用到三个网络：
Prior网络：从文本信息生成Image特征向量，也是仅有接收文本信息的网络。
Decoder网络：从图画特征网络生成低分辨率64×64的图片。
两个空间的高分辨率网络：生成256×256和768×768的图片。
时空卷积层和留意层，将依据榜首部分的网络扩展到时刻维度
在模型初始化阶段扩展包含了时刻维度，而扩展后包含了新的留意层，能够从视频数据中学习信息的时刻改变
temporal layer是经过未标注的视频数据进行fine-tune，一般从视频中抽取16帧。所以加上时刻维度的decoder能够生成16帧的图片
以及用于高帧速率生成的插帧网络

空间的超分辨率模型以及插帧模型，进步的高帧速率和分辨率，让视觉质量看起来更好。

全体评价上都要优于本年早些时期的研讨：

优势：

这儿的优点很明显便是不再需要运用许多的文本视频pair数据来练习模型。
因而也大大加快了模型练习时刻。
继承了现在最好的文本生成图画模型的优质成果。

*前两点都是之前text-to-video生成模型开展的瓶颈。

束缚：

这个方法无法学习只能从视频中得到的联系文本和现象的联系，比方一个人是从左往右挥手仍是从右往左挥手的的视频细节。
现在限于简略的动作和改变，包含多个场景和事件的较长视频，或许更多的视频中展示的故事细节很难完成。
相同是运用许多公开数据的大规模模型，相同有用于出产有害内容的危险。
Google’s Imagen Video

是由7个串联的子模型构成，模型包含多达116亿个参数，其间T5是一个language model用来了解文本语义，Base是担任出产视频中的关键帧，SSR模型提升视频的像素，TSR担任填充关键帧之间辅佐帧。

能够完成的技能运用场景

经过底层技能尤其在CV、NLP相关的各类模型在不同内容和多模态场景中的测验和迭代，关于AI发明和内容出产相同无外乎在不同类型内容（文本、音频、图画、视频）出产和内容跨类型的出产场景。下图很好地总结了这些实践中能够运用的技能场景。

针对游戏内容的Demo

这些技能完成是否相同能给咱们供给游戏相关的运用场景呢？咱们在这儿针对相对较为老练的图画相关的生成场景做了几个demo测验。全体上来说在咱们游戏中台相关的业务场景中是有一些运用点的。下面看一下这几个demo的姿态。

（一）文本生成图画

针对庄周这个英雄的姿态咱们运用东西和代码都测验了一下怎样能够出产不同风格的庄周

游戏中的姿态：

经过咱们以下描绘后的姿态，一起也能够加上卡通、二次元、素描等等风格的描绘，咱们得到各种不同风格类型的姿态：

Ultra detailed illustration of a butterfly anime boy covered in liquid chrome, with green short hair, beautiful and clear facial features, lost in a dreamy fairy landscape, crystal butterflies around, vivid colors, 8k, anime vibes, octane render, uplifting, magical composition, trending on artstation

咱们在各种测验的进程中很明显的感知和发现一些束缚：

文本描绘生成的成果会有一些随机性，生成的图片大约率是很难彻底依照“需求”生成，更多带来的是“惊喜”，这种惊喜在一定的层面上代表的也是一种艺术风格。所以在实践的运用中并不是很适用于依照严格要求出产图片的任务，而更多的适用于有一定的描绘，能够给艺术构思带来一些创意的爆发和参考。
文本的精确描绘关于生成的图片姿态是极其重要的，技能自身对文本描绘和措辞有较高要求，需对脑海中的中心构思细节有较为精确的描绘。
出产Domain-specific例如腾讯游戏高度一致的内容元素需对预练习大模型进行再练习。

而文本生成视频的场景相对很新，Google/Meta也是这两三周才官宣对应的视频生成器，且还没有敞开运用和开源，但咱们预估以现在的热度和迭代速度，在未来的3-6个月内咱们能够对相关才能有更清晰的探究和测验。

（二）图画交融和改换

图画自身的交融改换在早几年的时分就现已有了一些研讨和探究，且有了相对较为老练的生成的姿态，这儿咱们运用平和精英的资料测验做一种改换风格的姿态。

平和精英资料原图和星空：

愈加深度的将星空的颜色和改变交融到原始图片中：

相对较浅度的将星空的颜色像素交融到原始图片中：

另外一种很有意思的方法是，咱们能够改换人物风格，比方王者英雄不知火舞和亚瑟在咱们形象的姿态，咱们能够把他们Q化成数码宝贝的姿态：

不知火舞

亚瑟

试想一下，这些不同的技能完成乃至都能够串联在一起，比方咱们能够先用文本描绘生成图片，再对图片进行风格改换等等，那这儿能够操作的工作就越来越多了，这儿就不逐个展开了。

而再进一步考虑（发自懒人的考虑），咱们是不是都不用去考虑文本怎样写？有没有帮助生成文本或许咱们能够查找之前生成过的文本？答案是有，比方Phraser就供给了这样的方法，乃至能够经过图片查找相关的文本：

AI发明的含义及危险

（一）含义

正如最初说到，本年的AI抢手归于AI发明，从2月的Disco Diffusion，到4月的DALL-E 2和MidJourney内测，到5/6月的Google模型Imagen和Parti，再到7月底的Stable Diffusion。越来越多的人开端测验AI发明图画、声响、视频、3D内容等等，这让咱们看到了AI在艺术领域越来越多的或许性。

十多年前当国际都开端为AI和机器学习欢呼的时分，咱们看到了许多AI能够做的工作，而“发明力”和“幻想力”也是一直以来AI最无法啃动的硬骨头，也是人类国际在AI和机器替代面前最终的倔强，但是现在看起来也是能够被技能拆解的。

从Alpha GO身上，咱们就看到了AI在才智和谋略上就现已突破了人类极限，而AI发明又进一步在发明力和幻想力逐步替代人类。在未来，一个各方面老练的AI彻底替代人类看起来现已是越来越实践的问题。假如AI未来能够完成核算机领域上下游一切的工作包含自己写代码，那么人类需要考虑的问题便是怎样和一个超越自己一切方面的人共存于世了。

（二）危险

AI发明的大火在很长时刻以后回头看一定有Stable Diffusion的开源的一席之地，相同这也会带来一些争议和危险。Stability AI的开源是简略粗暴的，他们简直不对生成内容做任何审核或许过滤，他们只包含了一些关键词过滤，但技能上能够轻松绕过，Reddit上就有教程怎样5秒内移除Stable Diffusion的安全过滤。因而用户能够轻松指控Stable Diffusion生成暴力或不良图片，描绘大众人物和名人，也能够高度拷贝艺术品或许有版权维护的图画，aka deepfakes。

由此咱们也能够设想这项技能或许被用于各类恶意和影响巨大的用途，咱们还很难判别在更久的未来，这项技能的开源是会给咱们更大的技能革新仍是各种问题。现在最大的乱子或许便是Stable Diffusion让生成暴力和色情图画变得更容易，且内容中往往包含真人特征。虽然开源阐明制止人们运用该模型实施各类犯罪行为，但只要把Stable Diffusion下载到自己的电脑上，运用者能够彻底不守束缚。虽然许多论坛例如Reddit有不少束缚政策且会封禁相关内容，但仍有用户不断生成各种名人明星的荒谬图画，AI生成内容的伦理问题再次会出现在风口浪尖。

在AI发明内容的这些模型中，练习数据中一类很明显的视觉资料便是受版权维护的著作。这在艺术家眼里，仿照艺术风格和美学的行为是不道德行为，且或许违反版权。Stable Diffusion也是其间重要一员，它的练习集LAION-5B包含50多亿张图画与匹配的文本标注，其间就包含了许多受版权维护的内容，这些内容其实归众多独立艺术家和专业摄影师一切。这些版权争议，也给这些AI发明东西带来了盗窃艺术家发明成果的臭名，也让许多有抱负有想法的艺术家越来越难以生计。

参考资料：

1.arxiv.org/pdf/2209.14…

2.arxiv.org/pdf/2112.10…

3.[1907.05600] Generative Modeling by Estimating Gradients of the Data Distribution

4.arxiv.org/pdf/2204.06…

5.imagen.research.google

6.[2105.05233] Diffusion Models Beat GANs on Image Synthesis

7.ommer-lab.com/research/la…

（留意：后台回复关键词“AI”，即可获取demo出产东西）

AI绘画火了！一文看懂背后技术原理

AI发明怎样火了？

技能解读

（一）Text-to-Image技能

Stable Diffusion

DALL-E 2

（二）Text-to-Video技能

Meta’s Make-A-Video

Google’s Imagen Video

能够完成的技能运用场景

针对游戏内容的Demo

（一）文本生成图画

（二）图画交融和改换

AI发明的含义及危险

（二）危险

参考资料：

作者信息

AI绘画火了！一文看懂背后技术原理

AI发明怎样火了？

技能解读

（一）Text-to-Image技能

Stable Diffusion

DALL-E 2

（二）Text-to-Video技能

Meta’s Make-A-Video

Google’s Imagen Video

能够完成的技能运用场景

针对游戏内容的Demo

（一）文本生成图画

（二）图画交融和改换

AI发明的含义及危险

（二）危险

参考资料：

相关文章

加速 Document AI (文档智能) 发展

神奇魔法师在哪里？

通俗易懂的机器学习——在Jetson nano（ubuntu）配置tensorflow

为你的Vue2.x老项目安装Vite发动机吧！

作者信息