欢迎重视『CVHub』官方微信大众号!
远景回忆
Welcome to back! 在《万字长文带你解读AIGC入门篇》 一文中,咱们具体为咱们介绍了AIGC
的相关概念、布景及其如此火爆的原因,接下来咱们将进一步深入讨论AIGC背后的技能栈。
作为本系列的技能篇,将从多个视点来介绍AIGC
的技能栈,其间包括了Transformer
、SSL
、VAE
、GAN
、Diffusion
等咱们均耳熟能详的词汇,这些技能都是AIGC
范畴中必不行少且十分重要的一部分,对于了解AIGC
的原理和完成办法都十分要害。下面开始吧?
3. AIGC 背后的根底技能
本文将 AIGC 视为一组运用人工智能办法生成内容的使命或运用程序。其间,生成技能是指运用机器学习模型生成新的内容,例如 GAN 和分散模型。创造技能是指运用生成技能生成的内容进行进一步的创造和修改,例如对生成的文本进行修改和改进。
3.1 生成技能
在AlexNet
的惊人成功之后,深度学习引起了极大的重视,它有点成为了人工智能的代名词。与传统的依据规则的算法不同,深度学习是一种数据驱动的办法,经过随机梯度下降优化模型参数。深度学习在获取杰出的特征表明方面的成功,取决于更好的网络架构和更多的数据,这极大地加速了AIGC
的开展。
3.1.1 网络架构
众所周知,深度学习的两个干流范畴是自然言语处理(NLP)和核算机视觉(CV),它们的研讨显著改进了主干架构,并在其他范畴启发了改进后主干架构的各种运用,例如语音范畴。在 NLP 范畴,Transformer 架构现已取代了循环神经网络(RNN)成为事实上的规范主干。而在 CV 范畴,视觉 Transformer(ViT) 除了传统的卷积神经网络(CNN)外,也展现了其强壮的功能。在这里,咱们将扼要介绍这些干流主干架构的作业原理及其代表性的变种。
- RNN & LSTM & GRU
RNN
首要用于处理时刻序列数据,例如言语或音频。规范的RNN有三层:输入层、躲藏层和输出层。RNN
的信息流有两个方向,榜首个方向是从输入到躲藏层再到输出的方向。而RNN
中循环的实质在于其沿着时刻方向的第二个信息流。除了当时的输入,当时时刻 的躲藏状况还依靠于上一个时刻 −1 的躲藏状况。这种双向的规划很好地处理了序列顺序,但当序列变得很长时,会出现梯度消失或梯度爆炸的问题。
为了缓解这个问题,引进了长短时记忆网络即LSTM
,其“细胞”状况充当了一个“高速公路”,有助于信息在序列方向上的流动。LSTM
是减轻梯度爆炸/消失问题最盛行的办法之一,可是因为它有三种门,因而会导致较高的复杂度和更高的内存需求。
接下来出场的便是门控循环单元(GRU
),该技能经过将细胞状况和躲藏状况兼并,并用所谓的更新状况替换遗忘门和输入门,简化了LSTM
。
终究,便是双向循环神经网络(Bidirectional RNN
),经过在细胞中捕获过去和未来信息来改进基本的RNN
,即时刻 t 的状况是依据时刻 t-1 和 t+1 核算的。依据使命不同,RNN 能够具有不同数量的输入和输出,例如一对一,多对一,一对多和多对多。其间多对多能够用于机器翻译,也称为序列到序列(seq2seq
)模型。另一方面,注意力机制也被频频引进,使得模型的解码器能够看到每个编码器符号,并依据其重要性动态更新权重。
- Transformer
与传统的Seq2seq
模型相比,Transformer
提出了自注意力机制,并将其成功运用于Encoder-Decoder
模型中。Transformer 模型由编码器和解码器两部分组成,选用了残差衔接和层归一化等技能,其间中心组件为多头注意力机制和前馈神经网络。多头注意力机制经过自注意力完成,并选用了多头的规划,而前馈神经网络则是由两个全衔接层组成。这种自注意力机制的定义选用了缩放点积的办法,能够更好地处理序列中的依靠联系。
与逐个输入句子信息以树立方位信息的 RNN 不同,Transformer 经过构建大局依靠联系获得强壮的建模才能,但也因而失去了带有归纳偏差的信息。因而,需求运用方位编码使模型能够感知输入信号的方位信息。有两种类型的方位编码。固定方位编码用不同频率的正弦和余弦表明。可学习的方位编码由一组可学习参数组成。不行否认的是,Transformer 已俨然成为 CV 和 NLP 使命的标杆之作,由其衍生的门派数不胜数。
- CNN
在 CV 范畴,CNN 有着不行撼动的方位。CNN 的中心在于卷积层。卷积层中的卷积核(也称为滤波器)是一组同享的权重参数,用于对图画进行操作,其创意来源于生物视觉皮层细胞。卷积核在图画上滑动并与像素值进行相关操作,终究得到特征映射并完成图画的特征提取。例如:
-
GoogleNet
的 Inception 模块答应在每个块中挑选多个卷积核大小,增加了卷积核的多样性,因而提高了CNN的功能; -
ResNet
是 CNN 的一个里程碑,引进残差衔接,稳定了练习,使模型能够经过更深的建模获得更好的功能。尔后,它成为CNN中不行或缺的一部分; - 为了扩展 ResNet 的作业,
DenseNet
在一切从前层和后续层之间树立密布衔接,然后使模型具有更好的建模才能; -
EfficientNet
运用一种称为缩放办法的技能,运用一组固定的缩放系数来统一缩放卷积神经网络架构的宽度,深度和分辨率,然后使模型愈加高效。 - 而与 NLP 范畴中的 Transformer 相似,
ViT
则是最近几年才在 CV 范畴中引进的新的变体。ViT 运用 transformer 模块来处理图画,并在 Vision Transformer Encoder 中运用自注意力机制,而不是传统的卷积神经网络。ViT 将输入的图画分红一些小块,然后将这些小块变换成一系列的向量,这些向量将被送入 transformer 编码器。经过这种办法,ViT 能够运用 transformer 强壮的建模才能来处理图画,并在许多核算机视觉使命中达到了与 CNN 适当的功能。
- ViT
Transformer 在 NLP 范畴的成功启发了许多学者将其运用到 CV 范畴,其间 ViT 是榜首种选用 Transformer 的 CV 模型。ViT 将图画平铺为一系列二维块,并在序列的最初刺进一个类别符号以提取分类信息。在嵌入方位编码之后,符号嵌入被输入到一个规范 Transformer 模型中。
ViT 的这种简略有用的完成使其高度可扩展。例如:
-
Swin
是经过在更深层次上兼并图画块来构建分层特征映射,以高效地处理图画分类和密布辨认使命,因为它仅在每个部分窗口内核算自注意力,因而削减了核算复杂度; -
DeiT
选用教师-学生练习策略,经过引进蒸馏符号,削减了 Transformer 模型对很多数据的依靠性; -
CaiT
引进了类别注意力机制以有用增加模型深度。 -
T2T
经过 Token Fusion 有用地定位模型,并经过递归地聚合相邻 Token 来引进 CNN 先验的层次化深而窄的结构。
经过置换等变性,Transformer 从其翻译不变性中解放了 CNN,答应更长距离的依靠联系和更少的归纳偏差,使它们成为更强壮的建模工具,并比 CNN 更适合于下流使命。在当时大模型和大数据集的范式下,Transformer 逐步取代 CNN 成为核算机视觉范畴的干流模型。
3.1.2 自监督学习
不行否认的是,深度学习能够从更好的主干结构中获益,但自监督学习同样重要,该技能能够运用更大的无标签练习数据集。在这里,咱们总结了最相关的自监督预练习技能,并依据练习数据类型(例如言语、视觉和联合预练习)对它们进行分类。
- Language pretraining
言语预练习办法首要有三种干流的办法。榜首种办法是运用掩码对编码器进行预练习,代表作是BERT
。具体来说,BERT 从未掩码的言语符号猜测掩码的言语符号。可是,掩码-猜测使命和下流使命之间存在显着差异,因而像BERT
这样的掩码言语建模在没有微调的情况下很少用于文本生成。
相比之下,自回归言语预练习办法适用于少样本或零样本文本生成。其间最盛行的是GPT
宗族,选用的是解码器而不是编码器。具体来说,GPT-1
是榜首种选用解码器的模型,GPT-2
和GPT-3
进一步研讨了大规模数据和大型模型在搬运才能中的效果。
依据GPT-3
,ChatGPT
的前所未有的成功近来引起了广泛重视。此外,一些言语模型选用了原始Transformer
的编码器和解码器。BART
运用各种类型的噪声扰动输入,猜测原始干净的输入,类似于去噪自编码器。MASS
和PropheNet
选用了类似于BERT
的办法,将掩码序列作为编码器的输入,解码器以自回归的办法猜测掩码符号。
- Visual pretraining
视觉预练习首要包括两种类型,榜首种类型是依据掩码学习的无监督自编码器,它们旨在学习良好的图画表征,最具代表性的是MAE
。第二种类型是依据自监督的猜测模型,最盛行的是ImageNet
中学到的视觉特征(ImageNet-pretraining
)和自监督学习办法,如RotNet
和MoCo
。这些办法选用的自监督使命包括但不仅限于图画旋转猜测和图画补丁重建等。
- Joint pretraining
终究一种预练习办法是联合学习办法,它运用多模态输入进行联合预练习。经过从互联网上收集很多的图画和文本配对数据集,多模态学习取得了前所未有的开展,其间交叉模态匹配是要害技能。比照预练习被广泛运用于在同一表明空间中匹配图画嵌入和文本编码。其间,CLIP
是最盛行的一个,由OpenAI
提出,它运用文本和图画作为联合输入,经过学习一个共同的嵌入空间来进行分类使命。
此外,SimCLR
和DALLE
都是联合学习的成功运用,前者运用自监督使命对图画进行增强,后者是一个生成模型,能够依据文字描述生成图画。ALIGN
则扩展了 CLIP,运用嘈杂的文本监督,使得文本-图画数据集不需求清洗,能够扩展到更大的规模。Florence 进一步扩展了跨模态同享表明,从大略场景到细粒度物体,从静态图画到动态视频等,因而,学习到的同享表明愈加通用,表现出杰出的功能。
3.2 创造技能
深度生成模型(DGMs
)是一组运用神经网络生成样本的概率模型,大体可分为两大类:依据似然的和依据能量的。依据似然的概率模型,如自回归模型和流模型,具有可追踪的似然,这为优化模型权重供给了一种直接的办法,即针对观察到(练习)数据的对数似然进行优化。变分自编码器(VAEs)中的似然则不完全可追踪,但能够优化可追踪的下限,因而,VAE
也被认为归于依据似然的组,其指定了一个归一化的概率。相反,能量模型以未归一化概率即能量函数为特色。在没有对规范化常数可追踪性的限制下,能量模型在参数化方面愈加灵活,但难以练习。此外,GAN
和 分散模型 虽然是从不同的时期开展而来,但与能量模型均密切相关。接下来,咱们将介绍每一类依据似然的模型以及如何练习依据能量的模型以及 GAN 和分散模型的机制。
3.2.1 Likelihood-based models
- Autoregressive models
自回归模型是一种能够用来猜测序列数据的模型,它能够学习序列数据的联合散布,而且运用从前时刻步的变量作为输入来猜测每个变量在序列中的取值。这种模型假定序列数据的联合散布能够被分解成一系列条件散布的乘积,这也便是所说的“条件概率分解”。
上面咱们简略跟咱们聊到过RNN
,实质上自回归模型和RNN
都需求运用前面的时刻步来猜测当时时刻步的值,可是它们的完成办法略有不同。在自回归模型中,前面的时刻步直接作为输入供给给模型,而在 RNN 中,前面的时刻步经过躲藏状况传递给模型。因而,能够将自回归模型看作是一个前馈神经网络,它接纳前面一切时刻步的变量作为输入。
在前期的作业中,自回归模型首要用于建模离散数据。其间,Fully Visible Sigmoid Belief Network, FVSBN
运用逻辑回归函数来估量条件散布,而Neural Autoregressive Distribution Estimation, NADE
则运用单躲藏层的神经网络。随着研讨的开展,自回归模型的运用逐步扩展到连续变量的建模。自回归模型现已在多个范畴得到了广泛运用,包括核算机视觉如PixelCNN
和PixelCNN++
、音频生成WaveNet
和自然言语处理Transformer
等等。这些运用中,自回归模型被用来生成图画、音频、文本等序列数据。
- MCMC & NCE
前期优化能量模型的办法选用了依据MCMC
即马尔可夫链蒙特卡罗的办法来估量对数似然的梯度,但这需求进行繁琐的随机样本抽取。因而,一些作业旨在改进 MCMC 的效率,代表性的作业是Langevin MCMC
。尽管如此,经过 MCMC 获取所需梯度需求很多的核算,而比照散度contrastive divergence, CD
成为一种盛行的办法,经过各种变体的近似来削减核算量,包括耐久 CD ,均匀场 CD 和多网格 CD 。
另一条研讨路线是经过噪声比照估量Notice Contrastive Estimation, NCE
来优化能量模型,该办法将概率模型与另一个噪声散布进行比照。具体来说,它优化以下损失函数:
- Score matchingScore matching
得分匹配是一种用于优化依据能量的模型的无 MCMC 办法,旨在最小化模型和观察到的数据之间的对数概率密度的导数。可是,通常无法获得数据得分函数,而去噪得分匹配是一种代表性办法,它运用带噪声的样本来近似数据得分,经过迭代去除噪声,然后生成干净的样本。
3.2.3 from GAN to diffusion model
当涉及到深度生成模型时,您首先想到什么?答案取决于您的布景,可是 GAN 无疑是最常说到的模型之一。GAN 代表生成对立网络,是由 Goodfellow 及其团队于 2014 年初次提出的,并于 2016 年被图灵奖 Yann Lecun 评为“机器学习范畴过去10年中最风趣的想法”。
最近,一种称为分散模型(diffusion model
)的新型深度生成模型宗族挑战了 GAN 长期以来的控制方位。分散模型在图画组成方面取得了压倒性的成功,并扩展到其他办法,如视频、音频、文本、图形等。考虑到它们对生成AI的开展的分配性影响,因而本文将集中围绕 GAN 和分散模型进行解说。
因为公式修改器的限制,完整版本请移步至微信大众号检查全文!
咱们将统一整理成完整版的 PDF 文档办法送给各位小伙伴,欢迎继续重视!假如您对 AIGC 技能十分感兴趣,十分欢迎您增加小编微信 cv_huber 补白 AIGC
参加咱们的小社群一起讨论,广告党勿扰!
假如您也对人工智能和核算机视觉全栈范畴感兴趣,强烈推荐您重视有料、风趣、有爱的大众号『CVHub』,每日为咱们带来精品原创、多范畴、有深度的前沿科技论文解读及工业成熟解决方案!欢迎增加小编微信号: cv_huber,补白””,参加 CVHub 官方学术&技能交流群,一起讨论更多风趣的话题!