1. 导言
为什么AIGC突然火了起来?又因何而强壮?
1. AGI
- Artificial General Intelligence通用人工智能一直是AI范畴的终极方针,即不再局限于一个个单独的子使命,而是直接构建出可以处理一切问题的通用模型。受限于传统办法的局限性,人们与AGI的方针相差甚远,Moss的呈现或许仍是遥遥无期。
但这波2012年以来的AI浪潮中,神经网络和深度学习的提出使得AGI呈现了一些曙光,这波浪潮首要有三个重要特性:
- 通用性:一种架构往往可以处理多个问题,同一套模型既能处理文字,也能处理图片
- 能力强壮:神经网络和深度学习远远超出了传统办法,可以完结好的多的效果
- 可扩展性:大力出奇观,模型越大功能越强(当然运用于大模型的架构也在不断进化)
2. OpenAI与GPT
OpenAI便是一家以通用人工智能为愿景而建立的公司,自身集合了尖端的科学家和工程师建立,招引了包括Elon Musk的出资,不过开端的时分完全不以营利为意图,导致很难招引新的出资,成员也纷繁被挖角(比方Musk自己),直到更换了新的CEO(Sam Altman),建立了以营利为意图的子公司,踢出了Musk,引入了微软的出资,微软成为了OpenAI的云服务器供货商,并发布了GPT的一系列落地运用(GitHub-Copilot,New Bing),然后走上了开展的快车道。
GPT,即Generative Pre-trained Transformer,是根据Transformer的一种生成预练习模型,运用了Transformer的解码器架构作为其网络的根底架构。而Transformer是Google提出的一种根据自留意力机制的新型神经网络架构,发布之后基本共同了自然言语处理方向。
ChatGPT是GPT-3发布之后OpenAI一系列练习和指令微调的最新效果,是根据GPT-3.5的微调,它与GPT-3的架构基本共同,但被赋予了一系列新的能力,比方遵从人类价值观、包括更多的细节等。
3.AIGC
AIGC(AI-Generated Content 人工智能生成内容)技能首要触及两个方面:自然言语处理NLP和AIGC生成算法。自然言语处理是完结人与核算机之间怎么经过自然言语进行交互的手段,从Transformer发布以来迎来了又一波开展。AIGC 生成算法干流的有生成对立网络 GAN 和分散模型。分散模型现已拥有了成为下一代图画生成模型的代表的潜力。它具有精度更高、可扩展性和并行性,无论是质量仍是功率均有所提高,其快速开展成为 AIGC 增长的拐点性要素。
Transformer和分散模型作为AIGC方向的当红选手,首要原因并不是自身功率更高(比方更少的参数得到更好的效果)而是带来了可扩展性和并行性,即大力出奇观有了可以发力的办法。
OpenAI旗下的AIGC运用
- 代码生成 – Codex
- 图画生成 – DALLE 2
- 智能对话 – ChatGPT
本文的首要意图是从神经网络入门开端,经过介绍GPT用到的根底概念(自监督学习、强化学习、预练习)和根底网络模型(MLP、ResNet、Transformer)来讲清楚GPT的原理和ChatGPT的开展历程。
2. 神经网络快速入门
1. 从最简略的“网络”开端
暂时无法在飞书文档外展现此内容
所谓的AI,面临的状况都是从输入一个X,给出咱们想要的输出Y开端,网络的参数即为k
Y=kXY=kX
方针:
构建一个“网络”,输入X,输出Y=X
然后咱们开端练习网络:
-
构建练习数据集
(1,1),(2,2) … (10,10)
-
确认练习办法
k从1开端,输入练习数据集,假如kX < Y,则k = k + 0.1,假如kX > Y,则k = k – 0.1
-
构建验证数据集
(11,11)
那么咱们经过10次核算,得到k = 1,最终验证 11 = 1 x 11,满意验证条件,网络练习成功!
运用网络时,咱们恣意输入X,就可以得到咱们想要的Y
2. 根底概念
1. 输入/输出
要处理一个使命,那么要首要确认这个使命的输入和输出是什么,输入可以是数字,文本,图片,视频,音频等多种多样,输出则是想要的结果,可以跟输入类型相同,也可以不同,比方输入图片,输出抠像;输入中文,输出英文。详细到AIGC,图片生成(输入文字/图片,生成图片),视频生成(输入文字/图片/视频,生成新的视频),以及大火的ChatGPT(输入文字,生成文字)。
2. 数据集
根据练习办法的不同,数据集可以只包括输入(无监督学习),也可以包括输入和输出(有监督学习),怎么获取或生成合适的数据集,往往是模型练习是否成功的前提,没有满足且精确的数据集,机器学习实践是无从谈起的。
为了验证练习出的网络是否符合需求,常常会别离构建练习数据集和验证数据集。
3. 参数/模型/网络
1. 参数
使命越杂乱,则需求更多的参数,比方简略的核算只需求个位数参数,触及到图画处理,则会用到卷积神经网络,矩阵的引入会带来参数的指数级胀大。为了面临越来越杂乱的使命,网络的参数量级呈指数级胀大,但假如只是简略的参数捧场因而就需求规划精巧杂乱的网络模型来衔接这些参数。
GPT-3系列模型参数数量,1750亿!
2. 模型和网络
模型即为把参数合理衔接起来的数学表达,比方神经元的数学模型
- a1~an为输入向量的各个分量
- w1~wn为神经元各个突触的权重值(weight)
- b为偏置(bias)
- f为传递函数,一般为非线性函数。
- t为神经元输出
数学表达为:
多个神经元衔接起来则构成了网络,即单层神经元网络,针对不同的运用场景往往会规划不同架构的网络,网络规划,衔接办法都有区别。
4. 常用术语
-
前向传达:输入层数据开端从前向后,数据逐渐传递至输出层。
- 对应核算Y = kX
-
反向传达:丢失函数开端从后向前,梯度逐渐传递至第一层。反向传达用于权重更新,使网络输出更挨近标签。
- 对应“假如kX < Y,则k = k + 0.1,假如kX > Y,则k = k – 0.1”
-
前馈神经网络:是一种最简略的神经网络,各神经元分层排列,每个神经元只与前一层的神经元相连。 接纳前一层的输出,并输出给下一层,各层间没有反馈。
-
梯度下降法:权重沿梯度负方向更新,使函数值减小。
- 对应k的变化
-
学习率:操控更新步长。
- 对应0.1
-
激活函数:将神经网络上一层的输入,经过神经网络层的非线性变换转化后,经过激活函数,得到输出。
- 激活函数首要是用来参加非线性要素的,因而都是非线性函数,如sigmoid函数
-
丢失函数:度量神经网络的输出的猜测值,与实践值之间的距离的一种办法。
- 对应kX < Y,即判断输出和猜测的关系
-
方针函数:为了完结某一方针,需求结构出一个“方针函数”来,然后让该函数取极大值或极小值,然后得到机器学习算法的模型参数。
5. 练习和学习办法
1. 监督学习
监督学习是指咱们给算法一个数据集,而且给定正确答案。机器经过数据来学习正确答案的核算办法。
运用打好标签的数据集来进行练习学习,比方给了许多猫和狗的照片进行练习,遇到新的小狗照片时就能正确进行分类。
2. 无监督学习
无监督学习中,给定的数据集没有“正确答案”,一切的数据都是未标示。无监督学习的使命是从给定的数据集中,挖掘出潜在的结构,比方可以进行聚类。
3. 半监督学习
半监督学习运用大量的未符号数据,以及同时运用符号数据,来进行形式识别工作。
4. 自监督学习
自监督学习首要是使用辅佐使命(pretext)从大规划的无监督数据中挖掘自身的监督信息,经过这种结构的监督信息对网络进行练习,然后可以学习到对下流使命有价值的表征。 也便是说,自监督学习不需求任何的外部符号数据,这些标签是从输入数据自身中得到的。自监督学习的形式仍然是Pretrain-Fintune的形式,即先在pretext上进行预练习,然后将学习到的参数迁移到下流使命网络中,进行微调得到最终的网络。
5. 强化学习
强化学习更挨近生物学习的实质,因而有望取得更高的智能。它重视的是智能体怎么在环境中采取一系列行为,然后取得最大的累积回报。经过强化学习,一个智能体应该知道在什么状态下应该采取什么行为。比方阿尔法狗学习的数据悉数来自机器自身,而非人类的棋谱。
6. 练习和推理
前文讲了神经网络的练习,而当运用这些练习时,便是在需求一种可以坚持学习并能将其学习效果运用于其从未见过的数据的快速运用,即推理的过程。
精确分配加权了的神经网络实质上是一个粗笨的巨型数据库,此刻的模型远多于它在完结某一特定使命时所需的内容。假如有人想运用这些练习,你真实所需的是一种可以坚持学习并能将其学习效果运用于其从未见过的数据的快速运用,这便是推理:只需求少得多的真实世界数据,就能快速得出正确答案。
此刻有两种首要的办法可以对迟钝的神经网络进行修改,以使其速度更快并改善运用在跨多个网络运行时所形成的推迟。
第一个办法着眼于神经网络中练习之后就不再激活的部件。这些部分已不再被需求,可以被“修剪”掉。第二个办法是寻觅办法将神经网络的多个层融合成一个单一的核算过程。
即将练习好的模型优化后运用于实践运用中便是推理。
7. 预练习模型
以往在运用最新的神经网络时,人们常常会初始化新的模型在不同的范畴中进行练习来运用。而随着网络越来越庞大,此种办法变得低效,引入了预练习模型的概念。
预练习模型(pre-training model)是先经过一批语料进行练习模型,然后在这个开始练习好的模型根底上,再持续练习或者另作他用。这样的了解基本上是对的,预练习模型的练习和运用别离对应两个阶段:预练习阶段(pre-training)和 微调(fune-tuning)阶段。
预练习阶段一般会在超大规划的语料上,选用无监督(unsupervised)或者弱监督(weak-supervised)的办法练习模型,希望模型可以取得言语相关的知识,比方句法,语法知识等等。经过超大规划语料的”洗礼”,预练习模型往往会是一个Super模型,一方面体现在它具有满足多的言语知识,一方面是因为它的参数规划很大。
微调阶段是使用预练习好的模型,去定制化地练习某些使命,使得预练习模型”更懂”这个使命。例如,使用预练习好的模型持续练习文本分类使命,将会取得比较好的一个分类结果,直观地想,预练习模型现已懂得了言语的知识,在这些知识根底上去学习文本分类使命将会事半功倍。使用预练习模型去微调的一些使命(例如前述文本分类)被称为下流使命(down-stream)。
8. 核算机视觉和自然言语处理
作为深度学习开展最敏捷、最具前景的两大分支,自然言语处理NLP与核算机视觉CV的开展形似相互独立、平分秋色。实则两者间的开展是不平衡的,多年来都是CV技能推进着NLP的开展,NLP许多网络中都有CV网络的影子。特别是现在CV的许多范畴的各项技能都现已迈向老练,而在NLP范畴还处在起步阶段。但NLP技能的开展,却极大影响着CV技能的改造,他们间的开展是相互协作、共同进步的。
一个很好的例子,NLP中自留意网络的提出,引领了图画处理留意力网络的研究热潮,而NLP集留意力大成结构Transformers的提出,更是为图画处理新技能注入了新血液,直接跻身方针追踪、图画分类、语义切割等多个图画处理范畴的前列,也进一步促进了AIGC的开展。
参考文献
- 机器学习、人工智能、深度学习是什么关系?