本文首发于微信公众号 CVHub,未经授权不得以任何形式售卖或私自转载到其它渠道,仅供学习,违者必究!

0. 导读

两万字长文带你全面解读生成式人工智能

跟着ChatGPT的病毒式传达,生成式人工智能(AIGC, a.k.a AI-generated content)因其剖析和发明文本图画视频以及其他方面的拔尖才干而俨然成为当下最火热的出资赛道,没有之一。在如此漫山遍野的信息轰炸下,每个人好像难以置身事外,咱们几乎不或许错过从某个视点瞥见AIGC的时机。

值得注意的是,在人工智能从纯剖析过渡到发明的年代,ChatGPT及其最新的言语模型GPT-4,仅仅众多AIGC使命中的一个东西罢了。在对ChatGPT的才干形象深入的一起,很多人都在想它的局限性:GPT-5或其他未来的GPT变体能否协助ChatGPT一致一切的AIGC使命,完成多样化的内容创造?为了答复这个问题,需求对现有的AIGC使命进行全面检查。

因而,本文将经过供给对AIGC从技能到运用的初步了解,来及时添补这一空白。现代生成式AI极度依靠于各种技能根底,从模型架构和自监督预练习到生成式建模办法(如GANDiffusion)。在介绍了根本技能之后,这项作业首要是依据各种AIGC使命的输出类型(包含文本、图画、视频、3D内容等)来研讨其技能开展,这描绘了ChatGPT的全部未来潜力。此外,咱们总结了它们在一些干流职业的重要运用,如教育和构思内容。最后,咱们将会集评论目前面对的应战,并对生成式AI在不久的将来或许的开展进行了相关的展望。

1. 引言

这段时刻,以ChatGPT和Midjourney为代表的 AIGC 东西迅速占领头条,充沛标明人工智能的新年代行将到来。在这种漫山遍野的媒体报道下,哪怕是个普通人都有很多时机能够一睹AIGC的风貌。可是,这些报道中的内容往往是偏颇的,有时甚至是误导的。此外,在对ChatGPT的强壮才干形象深入的一起,许多人也在想象它的极限。

就在近期,OpenAI发布了GPT-4,与之前的变体GPT-3.5比较,它展现了明显的功能改善以及多模态生成才干,如图画了解。被AIGC驱动的GPT-4的强壮才干所打动,许多人想知道它的极限,即GPT-X是否能协助下一代ChatGPT一致一切AIGC使命?

传统人工智能的方针首要是进行分类回归(Classification or Regression)。此类模型可概括为判别式AI,因而传统人工智能也经常被称为剖析性人工智能。比较之下,生成式AI经过发明新的内容来进行区分。可是,这种技能往往也要求模型在生成新内容之前首要了解一些现有的数据(如文本指令 text instruction)。从这个视点来看,判别式AI能够被看作是现代生成式AI的根底,它们之间的鸿沟往往是模糊的。

需求注意的是,判别式AI也能生成内容。例如,标签内容是在图画分类中产生的。虽然如此,图画辨认往往不被认为是生成式AI的范畴,因为相关于图画或视频来说,标签内容的信息维度很低。另一方面,生成式AI的典型使命涉及生成高维数据,如文本或图画。这种生成的内容也能够作为组成数据,用于缓解深度学习中对更多数据的需求。

如上所述,生成式AI与传统人工智能的差异在于其生成的内容。提到这儿,生成式AI在概念上与AIGC相似。在描绘依据人工智能的内容生成的布景下,这两个术语一般是能够互换的。因而,在本文中,为了简略起见,咱们把内容生成使命统称为AIGC。例如,ChatGPT是一个被称为ChatBotAIGC使命的东西,考虑到AIGC使命的多样性,这其实仅仅冰山一角罢了。虽然生成式AI和AIGC之间有很高的相似性,但这两个术语有细微的差异。详细来讲:

  • AIGC专注于内容生成的使命;
  • 生成式AI则额定考虑支持各种AIGC使命开展的底层技能根底

依据此,咱们能够将这类根底技能区分为两大类:

  • Generative Modeling Techniques:如VAEGANDiffusion,它们与内容创造的生成式AI直接相关;
  • Backbone ArchitectureSelf-Supervised Learning, SSL:如广泛运用于自然言语处理的Transformer架构和BERT以及对应的核算机视觉范畴的Vision Transformer架构和MAE等。

在这些底层技能的根底上,能够构建出许多AIGC使命,并且能够依据生成的内容类型进行简略的分类:

  • 文本生成:例如OpenAIChatBot、谷歌的Bard等;
  • 图画生成:例如MidJourneyDALL-EStable Diffusion及国内百度的文心一格等;支护工包含的图画编辑功能更是能够广泛运用于图画超分、图画修正、人脸替换、图画去水印、图画布景去除、线条提取等使命;
  • 音频生成:例如AudioLDMWaveNet等;
  • 视频生成:详细介绍可参阅此链接

此外,就是各种多模态融合相关的技能。跟着技能的开展,AIGC的功能在越来越多的使命中得到了广泛地验证。例如,ChatBot曩昔只限于答复简略的问题。可是,最近的ChatGPT已被证明能够了解笑话并在简略指令(prompt)下生成代码。另一方面,文本到图画曾经被认为是一项具有应战性的使命;可是,最近的DALL-E 2和安稳分散(Stable Diffusion)模型已经能够生成逼真的图画。

两万字长文带你全面解读生成式人工智能

因而,将AIGC运用于各行各业的时机出现了。在后续的文章中咱们将会全面为咱们介绍AIGC在各个职业的运用,包含文娱数字艺术媒体/广告教育等。当然,伴跟着AIGC在实际国际中的运用,许多应战也出现了,如品德和种族歧视问题等。

下面咱们将按照这个版图为咱们进行全面的介绍。

两万字长文带你全面解读生成式人工智能

2. 布景回忆

选用 AI 进行内容创造由来已久。 IBM 于 1954 年在其纽约总部首次揭露展现了机器翻译体系。榜首首核算机生成的音乐于 1957 年面世,名为Illiac Suite。这种前期尝试和概念验证的成功引起了人们对人工智能未来的高度希望,促进政府和企业在人工智能上投入很多资源。可是,如此高的出资热潮并没有产生预期的产出。之后,一个被称为人工智能寒冬的时期到来,极大地破坏了人工智能的开展。AI 及其运用的开展在进入 2010 年代后再次盛行起来,特别是在 2012 年 AlexNet 成功用于 ImageNet 分类之后。进入 2020 年代,AI 进入了一个不仅了解现有数据并且发明了新的内容。本文将经过重视生成AI的盛行及其盛行的原因进行去大局的概述。

2.1 查找指数

“某个术语有多受欢迎”的一个很好的指标是查找指数。这方面,谷歌供给了一种很有前途的东西来可视化查找频率,称为谷歌趋势。虽然其他查找引擎如百度或许供给相似的功能,但咱们依然选用谷歌趋势,因为谷歌没有莆田医院是国际上运用最广泛的查找引擎之一。

  • Interest over time and by region

两万字长文带你全面解读生成式人工智能

两万字长文带你全面解读生成式人工智能

图 2.1 左侧的图表显现了生成式AI的查找指数,标明在曩昔一年中人们的查找爱好明显添加,特别是在2022年10月之后。进入2023年之后,这种查找爱好达到了一个新高度。相似的趋势也出现在AIGC这个术语上。除了随时刻改动的爱好之外,Google 趋势还供给了按地区区分的查找爱好。图2.1和图2.2右侧图分别显现了生成式AI和AIGC的查找热度图。关于这两个术语,首要的热点地区包含亚洲北美西欧。值得注意的是,关于这两个术语,我国的查找爱好最高,达到100,其次是北美约30和西欧约20。值得一提的是,一些技能导向型的小国家在生成式AI方面的查找爱好十分高。例如,在按国家区分的查找爱好排名中排名前三的国家是新加坡(59)、以色列(58)和韩国(43)。

  • Generative AI v.s. AIGC

两万字长文带你全面解读生成式人工智能

上图简略的展现了生成式AI和AIGC相关查找指数的比较。

2.2 为什么会如此受欢迎?

最近一年中人们对生成式AI的爱好急剧添加,首要归因于安稳分散ChatGPT等引人入胜的东西的出现。在这儿,咱们评论为什么生成式AI到欢迎,要点重视哪些因素促成了这些强壮的AIGC东西的出现。这些原因能够从两个视点进行总结,即内容需求和技能条件。

2.2.1 内容需求

互联网的出现从根本上改动了咱们与国际的沟通和交互办法,而数字内容在其间扮演了关键角色。曩昔几十年里,网络上的内容也阅历了多次重大革新。在Web1.0年代(1990年代-2004年),互联网首要用于获取和同享信息,网站首要是静态的。用户之间的互动很少,首要的通讯办法是单向的,用户获取信息,但不奉献或同享自己的内容。内容首要以文本为根底,由相关范畴的专业人士生成,例如记者写新闻稿。因而,这种内容一般被称为专业生成的内容PGC,而另一种类型的内容则主导了用户生成内容UGC。与 PGC 比较,在Web2.0中,UGC 首要由社交媒体上的用户生成,如 Facebook,Twitter,Youtube 等。与 PGC 比较,UGC 的数量集体显然更大,但其质量或许较差。

跟着网络的开展,咱们目前正在从 Web 2.0 过渡到 Web 3.0。Web 3.0 具有去中心化无中介的定义特征,还依靠于一种超越 PGC 和 UGC 的新式内容生成类型来处理数量和质量之间的权衡。人工智能被广泛认为是处理这种权衡的一种有前途的东西。例如,在曩昔,只要那些长期练习过的用户才干绘制出像样的图片。经过文本到图画的东西(如stable diffusion),任何人都能够运用简略的文本描绘(prompt)来创立绘画图画。当然,除了图画生成,AIGC 使命还有助于生成其他类型的内容。

AIGC 带来的另一个改动是顾客和创造者之间的鸿沟变得模糊。在 Web 2.0 年代,内容生成者和顾客一般是不同的用户。可是,在 Web 3.0 中,借助 AIGC,数据顾客现在能够成为数据创造者,因为他们能够运用 AI 算法和技能来生成自己的原创内容,这使得他们能够更好地操控他们出产和消费的内容,运用自己的数据和 AI 技能来出产契合自己特定需求和爱好的内容。总的来说,向 AIGC 的改动有或许大大改动数据消费和出产的办法,使个人和组织在他们创立和消费内容时具有更多的操控和灵敏性。接下来,咱们将评论为什么 AIGC 现在变得如此盛行。

2.2.2 技能条件

谈到AIGC技能时,人们首要想到的往往是深度学习算法,而疏忽了其两个重要条件:数据访问和核算资源。

首要,让咱们一起唠唠在数据获取方面获得的开展。深度学习是在数据上练习模型的典型事例。模型的功能在很大程度上取决于练习数据的巨细。一般情况下,模型的功能跟着练习样本的增多而前进。以图画分类为例,ImageNet是一个常用的数据集,具有超越100万张图片,用于练习模型和验证功能。生成式AI一般需求更大的数据集,特别是关于像文本到图画这样具有应战性的 AIGC 使命。例如,DALLE运用了大约2.5亿张图片进行练习。DALL-E 2则运用了大约6.5亿张图片。ChatGPT是依据GPT3构建的,该模型部分运用CommonCrawl数据集进行练习,该数据集在过滤前有 45TB 的压缩纯文本,过滤后只要 570GB。其他数据集如WebText2Books1/2Wikipedia也参加了 GPT3 的练习。访问如此巨大的数据集首要得益于互联网的敞开。

AIGC的开展另一个重要因素是核算资源的前进。前期的人工智能算法是在CPU上运行的,这不能满意练习大型深度学习模型的需求。例如,AlexNet是榜首个在完好的ImageNet上练习的模型,练习是在图形处理器GPU上完成的。GPU 最初是为了在视频游戏中出现图形而规划的,但现在在深度学习中变得越来越常见。GPU 高度并行化,能够比 CPU 更快地执行矩阵运算。众所周知,Nvidia是制造 GPU 的巨子公司。其 CUDA 核算才干从 2006 年的榜首个 CUDA-capable GPU(GeForce 8800)到最近的 GPU(Hopper)已经前进了数百倍。GPU 的价格能够从几百美元到几千美元不等,这取决于核心数内存巨细。相似的,Tensor Processing Units(TPU)是由Google专门为加快神经网络练习而规划的专用处理器。TPU 在 Google Cloud 渠道上可用,价格因运用和配置而异。总的来说,核算资源的价格越来越实惠。

3. AIGC 背后的根底技能

本文将 AIGC 视为一组运用人工智能办法生成内容的使命或运用程序。其间,生成技能是指运用机器学习模型生成新的内容,例如 GAN 和分散模型。创造技能是指运用生成技能生成的内容进行进一步的创造和编辑,例如对生成的文本进行编辑和改善。

3.1 生成技能

AlexNet的惊人成功之后,深度学习引起了极大的重视,它有点成为了人工智能的代名词。与传统的依据规则的算法不同,深度学习是一种数据驱动的办法,经过随机梯度下降优化模型参数。深度学习在获取卓越的特征表明方面的成功,取决于更好的网络架构和更多的数据,这极大地加快了AIGC的开展。

3.1.1 网络架构

众所周知,深度学习的两个干流范畴是自然言语处理(NLP)和核算机视觉(CV),它们的研讨明显改善了主干架构,并在其他范畴启发了改善后主干架构的各种运用,例如语音范畴。在 NLP 范畴,Transformer 架构已经替代了循环神经网络(RNN)成为事实上的规范主干。而在 CV 范畴,视觉 Transformer(ViT) 除了传统的卷积神经网络(CNN)外,也展现了其强壮的功能。在这儿,咱们将扼要介绍这些干流主干架构的作业原理及其代表性的变种。

  • RNN & LSTM & GRU

RNN首要用于处理时刻序列数据,例如言语音频。规范的RNN有三层:输入层躲藏层输出层RNN的信息流有两个方向,榜首个方向是从输入到躲藏层再到输出的方向。而RNN中循环的实质在于其沿着时刻方向的第二个信息流。除了当时的输入,当时时刻 的躲藏状况还依靠于上一个时刻 −1 的躲藏状况。这种双向的规划很好地处理了序列顺序,但当序列变得很长时,会出现梯度消失梯度爆破的问题。

为了缓解这个问题,引进了长短时记忆网络即LSTM,其“细胞”状况充当了一个“高速公路”,有助于信息在序列方向上的活动。LSTM是减轻梯度爆破/消失问题最盛行的办法之一,可是因为它有三种门,因而会导致较高的复杂度和更高的内存需求

接下来进场的就是门控循环单元(GRU),该技能经过将细胞状况和躲藏状况兼并,并用所谓的更新状况替换遗忘门和输入门,简化了LSTM

最后,就是双向循环神经网络(Bidirectional RNN),经过在细胞中捕获曩昔和未来信息来改善根本的RNN,即时刻 t 的状况是依据时刻 t-1 和 t+1 核算的。依据使命不同,RNN 能够具有不同数量的输入和输出,例如1对1,多对一,一对多和多对多。其间多对多能够用于机器翻译,也称为序列到序列(seq2seq)模型。另一方面,注意力机制也被频繁引进,使得模型的解码器能够看到每个编码器符号,并依据其重要性动态更新权重。

两万字长文带你全面解读生成式人工智能

  • Transformer

与传统的Seq2seq模型比较,Transformer提出了自注意力机制,并将其成功运用于Encoder-Decoder模型中。Transformer 模型由编码器解码器两部分组成,选用了残差衔接层归一化等技能,其间核心组件为多头注意力机制前馈神经网络。多头注意力机制经过自注意力完成,并选用了多头的规划,而前馈神经网络则是由两个全衔接层组成。这种自注意力机制的定义选用了缩放点积的形式,能够更好地处理序列中的依靠联系。

与逐一输入句子信息以树立方位信息的 RNN 不同,Transformer 经过构建大局依靠联系获得强壮的建模才干,但也因而失去了带有概括偏差的信息。因而,需求运用方位编码使模型能够感知输入信号的方位信息。有两种类型的方位编码。固定方位编码用不同频率的正弦和余弦表明。可学习的方位编码由一组可学习参数组成。不可否认的是,Transformer 已俨然成为 CV 和 NLP 使命的标杆之作,由其衍生的门派不计其数。

  • CNN

在 CV 范畴,CNN 有着不可撼动的位置。CNN 的核心在于卷积层。卷积层中的卷积核(也称为滤波器)是一组同享的权重参数,用于对图画进行操作,其创意来源于生物视觉皮层细胞。卷积核在图画上滑动并与像素值进行相关操作,最终得到特征映射并完成图画的特征提取。例如:

  1. GoogleNet 的 Inception 模块答应在每个块中挑选多个卷积核巨细,添加了卷积核的多样性,因而前进了CNN的功能;
  2. ResNet 是 CNN 的一个里程碑,引进残差衔接,安稳了练习,使模型能够经过更深的建模获得更好的功能。此后,它成为CNN中不可或缺的一部分;
  3. 为了扩展 ResNet 的作业,DenseNet 在一切先前层和后续层之间树立密布衔接,从而使模型具有更好的建模才干;
  4. EfficientNet 运用一种称为缩放办法的技能,运用一组固定的缩放系数来一致缩放卷积神经网络架构的宽度,深度和分辨率,从而使模型愈加高效。
  5. 而与 NLP 范畴中的 Transformer 相似,ViT 则是最近几年才在 CV 范畴中引进的新的变体。ViT 运用 transformer 模块来处理图画,并在 Vision Transformer Encoder 中运用自注意力机制,而不是传统的卷积神经网络。ViT 将输入的图画分成一些小块,然后将这些小块变换成一系列的向量,这些向量将被送入 transformer 编码器。经过这种办法,ViT 能够运用 transformer 强壮的建模才干来处理图画,并在许多核算机视觉使命中达到了与 CNN 适当的功能。

两万字长文带你全面解读生成式人工智能

  • ViT

Transformer 在 NLP 范畴的成功启发了许多学者将其运用到 CV 范畴,其间 ViT 是榜首种选用 Transformer 的 CV 模型。ViT 将图画平铺为一系列二维块,并在序列的开头插入一个类别符号以提取分类信息。在嵌入方位编码之后,符号嵌入被输入到一个规范 Transformer 模型中。

ViT 的这种简略有用的完成使其高度可扩展。例如:

  1. Swin是经过在更深层次上兼并图画块来构建分层特征映射,以高效地处理图画分类和密布辨认使命,因为它仅在每个局部窗口内核算自注意力,因而减少了核算复杂度;
  2. DeiT选用教师-学生练习战略,经过引进蒸馏符号,减少了 Transformer 模型对很多数据的依靠性;
  3. CaiT引进了类别注意力机制以有用添加模型深度。
  4. T2T经过 Token Fusion 有用地定位模型,并经过递归地聚合相邻 Token 来引进 CNN 先验的层次化深而窄的结构。

经过置换等变性,Transformer 从其翻译不变性中解放了 CNN,答应更长距离的依靠联系和更少的概括偏差,使它们成为更强壮的建模东西,并比 CNN 更适合于下流使命。在当时大模型和大数据集的范式下,Transformer 逐渐替代 CNN 成为核算机视觉范畴的干流模型。

3.1.2 自监督学习

不可否认的是,深度学习能够从更好的主干结构中获益,但自监督学习同样重要,该技能能够运用更大的无标签练习数据集。在这儿,咱们总结了最相关的自监督预练习技能,并依据练习数据类型(例如言语、视觉和联合预练习)对它们进行分类。

两万字长文带你全面解读生成式人工智能

  • Language pretraining

言语预练习办法首要有三种干流的办法。榜首种办法是运用掩码对编码器进行预练习,代表作是BERT。详细来说,BERT 从未掩码的言语符号猜测掩码的言语符号。可是,掩码-猜测使命和下流使命之间存在显着差异,因而像BERT这样的掩码言语建模在没有微调的情况下很少用于文本生成。

比较之下,自回归言语预练习办法适用于少样本或零样本文本生成。其间最盛行的是GPT宗族,选用的是解码器而不是编码器。详细来说,GPT-1是榜首种选用解码器的模型,GPT-2GPT-3进一步研讨了大规划数据和大型模型在转移才干中的作用。

依据GPT-3ChatGPT的史无前例的成功近来引起了广泛重视。此外,一些言语模型选用了原始Transformer的编码器和解码器。BART运用各种类型的噪声扰动输入,猜测原始干净的输入,相似于去噪自编码器。MASSPropheNet选用了相似于BERT的办法,将掩码序列作为编码器的输入,解码器以自回归的办法猜测掩码符号。

两万字长文带你全面解读生成式人工智能

  • Visual pretraining

视觉预练习首要包含两种类型,榜首种类型是依据掩码学习的无监督自编码器,它们旨在学习杰出的图画表征,最具代表性的是MAE。第二种类型是依据自监督的猜测模型,最盛行的是ImageNet中学到的视觉特征(ImageNet-pretraining)和自监督学习办法,如RotNetMoCo。这些办法选用的自监督使命包含但不仅限于图画旋转猜测图画补丁重建等。

两万字长文带你全面解读生成式人工智能

  • Joint pretraining

最后一种预练习办法是联合学习办法,它运用多模态输入进行联合预练习。经过从互联网上搜集很多的图画和文本配对数据集,多模态学习获得了史无前例的开展,其间交叉模态匹配是关键技能。对比预练习被广泛运用于在同一表明空间中匹配图画嵌入和文本编码。其间,CLIP是最盛行的一个,由OpenAI提出,它运用文本图画作为联合输入,经过学习一个共同的嵌入空间来进行分类使命。

此外,SimCLRDALLE都是联合学习的成功运用,前者运用自监督使命对图画进行增强,后者是一个生成模型,能够依据文字描绘生成图画。ALIGN则扩展了 CLIP,运用喧闹的文本监督,使得文本-图画数据集不需求清洗,能够扩展到更大的规划。Florence 进一步扩展了跨模态同享表明,从粗略场景到细粒度物体,从静态图画到动态视频等,因而,学习到的同享表明愈加通用,表现出卓越的功能。

3.2 创造技能

深度生成模型(DGMs)是一组运用神经网络生成样本的概率模型,大体可分为两大类:依据似然的和依据能量的。依据似然的概率模型,如自回归模型和流模型,具有可追踪的似然,这为优化模型权重供给了一种直接的办法,即针对观察到(练习)数据的对数似然进行优化。变分自编码器(VAEs)中的似然则不完全可追踪,但能够优化可追踪的下限,因而,VAE也被认为归于依据似然的组,其指定了一个归一化的概率。相反,能量模型以未归一化概率即能量函数为特点。在没有对规范化常数可追踪性的限制下,能量模型在参数化方面愈加灵敏,但难以练习。此外,GAN分散模型 虽然是从不同的时期开展而来,但与能量模型均密切相关。接下来,咱们将介绍每一类依据似然的模型以及怎么练习依据能量的模型以及 GAN 和分散模型的机制。

完好版 PDF 进入常识星球即可一键领取。

两万字长文带你全面解读生成式人工智能


即日起,CVHub 正式注册常识星球,首期供给以下服务:

  1. 本星球主打常识问答服务,包含但不仅限于算法原理项目实战职业规划科研思维等。
  2. 本星球秉持高质量AI技能同享,包含:每日优质论文速递,优质论文解读常识点总结等。
  3. 本星球力邀各职业AI大佬,供给各职业经验同享,星球内部成员可深度了解各职业学术/工业最新开展。
  4. 本星球不定期同享学术论文思路,包含但不限于Challenge剖析,立异点发掘试验配置写作经验等。
  5. 本星球供给很多 AI 岗位工作招聘资源,包含但不限于CVNLPAIGC等;一起不定期同享各类实用东西干货资料等。

两万字长文带你全面解读生成式人工智能