前言
我正在参加「启航方案」
前段时刻,要预备 AIGC 比赛,学习了一下人工智能的相关常识,浅浅了解了一点东西,总结并扩展了一下相关内容;文章中的大部分概念都用降维的例子来阐述,不管你是否了解人工智能,都能有所收获。
石器年代
核算机从 1945 年面世至今,中心诉求都是在处理数据。从第一台核算机 ENIAC 的电子管到现在的 云核算,数据处理从开始的手动生成纸质卡片到现在的自动化,数据处理的速度和质量都大幅提升了。但,它依然不够“智能”
专家体系
现在假定你需求核算机帮助你答复一些实践问题
有一丢丢编程常识的你,或许会这么写
if (question === "怎样处理低收入人群的收入问题") {
return "低收入者应该把闲暇房出租,私家车拉客增收入";
}
if (question === "怎样处理产业工人空心化现象") {
return "多鼓舞年轻人进厂当工人少送外卖";
}
if (question === "怎样处理老龄化社会,青壮年劳动力不足") {
return "鼓舞60岁以上初老集体再就业";
}
// 其他问题...
一连串的 if else,依据或许提出的不同问题,给出不同的答案。
但假如一切问题都这么写,代码就太多了,也不方便查阅和后期的维护。
于是,咱们把一切问题与对应的答案,通通写入数据库。不知道数据库是啥也不要紧,你能够简略了解把它为便是 excel,仅仅作为存储数据用,能够增删改查
将实践问题都存入数据库后,咱们得到了下面这张表:
question | answer |
---|---|
怎样处理低收入人群的收入问题 | 低收入者应该把闲暇房出租,私家车拉客增收入 |
怎样处理产业工人空心化现象 | 多鼓舞年轻人进厂当工人少送外卖 |
怎样处理老龄化社会,青壮年劳动力不足 | 鼓舞 60 岁以上初老集体再就业 |
怎样看待取消预售制 | 坚决不能取消预售制,预售制有利于老百姓,帮大众省钱 |
国内家庭的均匀财物有多少 | 国内家庭均匀总财物 300 万很正常,现在谁家没个 50 万现金呢 |
怎样下降失业率 | 征收失业税,没作业要交钱 |
怎样处理环境污染问题 | 农民不要运用收割机割麦子 |
怎样改动大家不肯生孩子的现状 | 适当赏罚不生孩子的年轻人 |
怎样能持续赚外汇 | 不能进步劳动者的薪酬,低薪酬是咱们的优势 |
怎样让经济快速发展 | 中国人假期太多,影响经济发展,主张削减一半 |
怎样能留下辉煌的历史 | 让贫富差距越大越好 |
为什么房价一直居高不下 | 房价高是由于老百姓手里钱太多了 |
现在咱们有了能处理以上一切问题的表,假如遇到新的问题,咱们的体系不知道怎样答复时,只需求咱们持续往表中再添加一条新的记录就能够了。
因而,理论上,假如咱们的表或者说数据库满足大,是足以应对各种或许提出的问题的。
这套理论也便是上个世纪七十年代提出的《专家体系》
的思路。
惋惜的是《专家体系》终究毫不意外地失利了,原因也很简略;实践国际的问题太杂乱,假如要它能处理实践国际的问题,咱们需求先将实践国际的问题和规律总结出来,之后再教给核算机;光是总结一个实践国际的杂乱问题或规律,就满足熬死一位科学家了(没有戏弄的意思)
青铜年代
为了处理《专家体系》存在的问题,科学家们想了个办法,那便是将收集到的一切答案都提早告知核算机,再让核算机依据提出的问题,自己去海量的数据中“选择”答案。
那么问题来了,核算机应该怎样从这海量的数据中挑出那个正确答案呢?
类比咱们人类,是怎样学习的呢?小时分的你做错了事,妈妈赏了你最爱吃的大嘴巴子,即使心里不服,可是你隐约会觉得这件事好像是不对的。
核算机也差不多,前面举例的 “专家体系” 假如选错了答案,也需求咱们及时精确地给 “专家” 来一个大嘴巴子,告知它正确答案是啥。
这样经过不断地测验,不断地挨巴掌,终究找到了正确答案。这种处理办法就叫 机器学习
,让机器经过“自我学习”的办法具有智能。
机器学习
“机器学习”作为“人工智能”的一个子集,在上个世纪五十年代就呈现了,时至今日,依然是最主流的人工智能完结办法。
(深度学习后面说)
在机器学习的进程中,“专家” 自己找答案,需求一次次反复地试错,这一不断测验的进程就叫做 练习集
,即核算机的答复与咱们给出的反馈;“专家” 在处理正确答案的进程,被称为符号
,也即咱们给的那一巴掌;“专家” 依据问题去找正确答案的办法,就叫做猜测函数
;“专家” 挨了巴掌今后,掉的血条,核算血掉了多少的办法就叫做丢失函数
(doge);“专家”血条逐步削减,越来越来迫临正确答案的进程,便是收敛
。
总结一下,
机器学习
便是在一堆符号的数据面前,规划一个正确的办法(猜测函数)来寻觅正确答案,并终究运用一个能收敛的数学办法(丢失函数)来确认答案的进程。
数学逻辑
为了更好的阐明,现在咱们换个栗子
假定小曲作业了一年,现在每月能拿到 2000 块;小尼作业了两年,现在每月有 4000 块薪酬;小马作业了三年,现在每月薪酬 6000;小九作业了四年,每月薪酬是小尼的两倍 8000 块;小刘现已作业了五年,现在每月能拿到 10000 块钱。问:你作业了六年今后能拿到多少钱?
这要是道小学题目,咱们设作业年份为 x
,设直线方程为 y = wx + b
,很自然地咱们能列出以下的等式:
2000x = y
投射到坐标轴上,如下图
横坐标是工龄,纵坐标是月薪,能够轻松得出,作业六年后月薪为 12000
可是机器并不知道 x 前面的值是 2000,也不知道 b 为 0,它只能不断地测验,x 取 1000、b 取 300,x 取 600,b 取 10,直到 x 取到 2000、b 取到 0,才找到了这条线
。
当然机器也不是在那瞎猜,它猜也是有技巧地猜,那便是靠 差错
。在猜的进程中,努力让每一个点和实践数值的差距越来越小,也就越挨近实在值
上图的灰色点线部分即 y 轴方向上的差错,于是咱们能够核算出已有数据的差错
第一年:2000 – (1w + b) 第二年:4000 – (2w + b) 第三年:6000 – (3w + b) 第四年:8000 – (4w + b) 第五年:10000 – (5w + b)
现在机器要做的便是让这五组数据加起来的数值最小,假如猜测的值大于实在数据还会存在负数的情况,因而这儿还需求对数据取正,一般为了便于核算,一般直接平方,于是,咱们就得到了 平方差
(2000 - (1w + b)) + (4000 - (2w + b)) + (6000 - (3w + b)) + (8000 - (4w + b)) + (10000 - (5w + b))
这个函数一般也被称作 丢失函数
,咱们再简化一下式子 55w + 55b + 55wb - 22000w - 11000b + 900000
,就得到了一个二元二次方程,现在要做的便是求这个方程的最小值(不展开了,有兴趣自己去算吧 doge)
上述这个例子仍是个相对简略的例子,一般丢失函数根本不会是简略的一元二次方程或二元二次方程,往往会更杂乱,维度更多
因而人们急需找一种相对普适的寻觅“差错”最小值的办法,目前主流的办法是 梯度下降
,中心思想即:在丢失函数投射到坐标轴上的曲线或曲面中找到它的最低点
那么梯度怎样了解呢?一般单变量函数中,梯度代表的是图画斜率的改变;多变量函数中,梯度代表的是向量改变最快的地方,即最峻峭的方向
假定咱们的丢失函数便是个一般的一元二次方程 x - 2x + 3
,对应的图画如下图所示
那么对应的梯度便是曲线斜率的改变,是不是开端有点眼熟了,能够标明函数曲线在某点处切线斜率的东东,便是导数啦,最低点也便是导数为 0 的点了
而在这个逐级挨近最低点的进程,一般就被称为 收敛
机器学习的本质即 运用不同的数学模型来投射和画线
机器学习办法
下面介绍一下出镜率极高的几种机器学习办法
线性回归、逻辑回归
线性回归 和 逻辑回归 都是机器学习中的监督学习
办法。
-
线性回归是一种用于猜测数值型方针变量的算法,它经过拟合一个带有权重的线性函数来推导出输入特征与输出之间的联系。在练习进程中,咱们依据给定的数据集不断调整这些权重,使得猜测成果与实在成果的差错最小化。当模型练习完结后,咱们就能够用它来对新的输入进行猜测。
-
逻辑回归则是一种用于猜测二元分类方针变量的算法,它将线性回归的输出转换成一个概率,并经过一个阈值将其映射为 0 或 1。在练习进程中,咱们同样需求不断调整权重以最小化猜测成果与实在成果的差错,但由于逻辑回归中的方针变量只要两种或许取值,因而咱们需求运用一种称为
穿插熵丢失函数
的办法来核算差错。
说人话便是,咱们需求找到一条线来猜测详细的值,依据咱们已有的数据,不断地调整这条线,让它更挨近实在的数据,下次有新的问题,就能够直接用这条线来猜测成果了。
逻辑回归首要处理的是分类问题,例如对人群的分类,高矮、胖瘦等等
与咱们上面讲机器学习时一样,是运用数学的办法,再配合丢失函数,找到这条线
k 近邻
k 近邻首要处理的也是分类问题
k 近邻(k-Nearest Neighbors,KNN)是一种十分基础的分类和回归办法。简略来讲,给定一个新的数据点,KNN 会在已有的数据会集找到最挨近它的 k 个数据点,并依据这些邻居的类别或数值来猜测该新数据点的类别或数值。
换句话说,KNN 算法经过寻觅与新样本最相似的数据点来进行分类或回归,而不需求事先树立模型。在这个算法中,K 值代表了要查找的最近邻居数量,一般由运用者自行设定。
你在网上冲浪时,不管你是在哪个网站浪,网站都会依据你注册时供给的信息,或是你经常浏览的内容是什么类型的,给你打上 tag,将你归到相应的用户分类中。来个新用户,就能够依据他注册时供给的信息快速地将他归类(提早猜测他大致会是哪一类用户)
转化为数学问题便是,网站会依据不同的维度,如年纪、性别等,将新用户 “投射” 到坐标系中,经过核算找到间隔新用户最近的其他几个用户,看看他们是什么类型的用户,那么新用户大约率也便是归于这个类型的。
决策树
决策树是一种依据树形结构的机器学习算法,用于对数据进行分类或猜测。
它也是一种监督式学习算法,能够从现已符号好类其他数据中自动学习和揣度出新的数据的类别。
这儿咱们还要先介绍一下一个概念 分类纯度
经过核算原始数据的分类纯度,即它与某个类其他一致性,一致性越高那么原始数据就越有或许是这一类其他
经过这种办法,能够将数据划分为不同的子集,然后再在子会集递归地进行相同的操作,直到一切数据都被分成了唯一的类别
这个进程能够看做是一棵树的成长进程,因而这种办法被称为决策树
现在假定你问电脑,什么样的男生或女生最受女生喜爱?
咱们就暂时认为,招引女生的地方首要便是 长的好看、人很幽默、老有钱了 这三个方面吧
咱们提早将马某云、杨某洋、肖某战还有你输入电脑,并告知电脑这三个人中谁最受女生欢迎,谁最不受女生欢迎
现在咱们把王某聪输入电脑,电脑便会开端核算 长的好看、人很幽默、老有钱了 三个节点的分类纯度,以此来猜测王某聪受不受女生喜爱
支持向量机
支持向量机 (SVM) 能够用于分类和回归问题。
它的方针是找到一个超平面,将数据点分成两个或多个类。能够处理线性、非线性的不可分问题。
现在假定这儿有一群羊 ,还有一群狼 (是会嗷嗷叫还会吃羊的那种)。
为了不让狼把羊都吃了,咱们得想点办法;由于这儿不是羊村,所以咱们需求挖一条沟,把羊与狼给分隔
咱们先把羊群和狼群投射到坐标系上,咱们就得到了以下这张图
支持向量机便是要经过数学办法来找到这条沟,这条沟的学名就叫超平面,羊和狼就被叫做支持向量
从图上羊群与狼群的分布能够看出来,咱们无法画一条笔直沟将羊群与狼群离隔,这便是线性不可分问题
而支持向量机的办法不是画曲线,而是升纬,也便是添加一个维度;既然这堆数据在二维坐标系下线性不可分,那就加一个维度,一般把用来升纬的函数称为核函数
升维后,能够看到羊群与狼群之间在第三个维度下是能够彻底分离隔的
贝叶斯分类
贝叶斯分类同样也是处理分类问题,它能够依据现已分好类其他练习数据来猜测新数据会归于哪个类别。
在贝叶斯分类中,咱们需求运用 先验概率
和 后验概率
来确认输入数据的分类。
来个小栗子 ,假定你是一个快递小哥,你需求将快递送到正确的地址。你现已是一个老练的快递小哥了,你现已成功送过许多许多快递了;在送新的快递时,你能够依据“以往每个地址收到快递的概率”,并依据快递的大小、外形核算出该快递归于某个地址的概率,来快速判断应该把快递送到哪个地址。这样,你就能够更精确地猜测快递的送达地址,并进步送货的功率。
这儿的“以往每个地址收到快递的概率”就归于“先验概率”,“依据快递的大小、外形核算出该快递归于某个地址的概率”就归于“后验概率”。
先验概率
一般是指一个类别在总体中呈现的概率。而 后验概率
则是指在考虑了额外信息(例如输入数据)后,一个事情产生的概率。
浅显的说,便是咱们依据某一类事物在产生某一些事情的概率,来反推,当某一些事情产生的时分,它便是某一类事物。
铁器年代
聪明的肯定发现了,上面介绍的机器学习办法,怎样少了个重量级选手。
对,我故意不写的
为啥?由于它便是不焚者,风暴降生丹妮莉丝,弥林的女王,安达尔人,大草海的卡丽熙……
不好意思,串戏了,其实它是现在大杀四方的机器学习办法——神经网络
神经网络
神经网络是一种模仿人类大脑神经元的核算模型,用于处理杂乱的机器学习问题,根本思想便是模仿大脑神经元的活动办法,来结构猜测函数和丢失函数
一开端神经网络还被叫做 感知机
,感知机是一种最简略的神经网络模型,它由一个或多个输入、一个输出以及一组可调节的权重构成,能够用来完结二分类使命。
单个感知机的算法机制便是在模仿大脑神经元的运行机制,神经元的“树突”能够看成是输入端,而“轴突”便是输出端
例如这个式子:x1+x2+x3=y
,x1、x2、x3 作为输入,y 作为输出
神经元的神奇之处就在于它的激活机制
,存在一个阈值,树突不断接收输入信号,但不是每个输入都能让轴突输出信号;一起,每个树突在输入时所占的权重也是不一样的,或许是由于权严重而引起轴突输出,也或许是由于信号堆集到了一个阈值,引起轴突输出。
如上图,w1 就相当于权重系数,其间 b 是常数,于是式子就变成 W1x1+W2x2+W3x3+b=y
为了完结激活的进程,咱们对输出值做进一步处理,添加一个激活函数
sigmoid 函数
是最常用的激活函数
这样就能够处理分类问题了
单个感知机的实质仍是在画一条线,把两种不同的东西分隔,所以单个感知机能够处理线性问题,可是依然无法处理 “线性不可分问题”
1969 年,“人工智能之父” 马文.明斯基就曾吐槽感知机,说它连核算机最根本的“异或问题”都处理不了。
异或算法便是:两者相同则取 0,两者不同则取 1;可是反映在二维坐标系上,异或便是线性不可分的,因而感知机的确处理不了异或问题。
**But,**数学上的异或运算是一种复合运算,能够经过其他运算得到,也即: a⊕b = (a ∧ b) ∨ (a ∧b)
。因而能够先运用两个感知机核算括号内的,再把成果给第三个感知机做外层的运算,这样就完结了异或运算。
于是乎,十几年后,感知机开端“加层”,从一层变成了两层,两层感知机就能够处理异或问题了,一起也处理了线性不可分的问题。但人们还不满足持续将两层变成了多层,多层感知机也有了个新姓名 深度学习
,深度指的便是感知机的层数多(一般躲藏层超过 3 层的神经网络就叫深度神经网络)。
至此,不管多杂乱的数据,都能够经过加层的办法,将它们分隔;理论上多层感知机能成为通用的办法,跨范畴处理各类机器学习的问题
依据多层感知机,1982 年,循环神经网络(RNN)呈现,1989 年,卷积神经网络(CNN)呈现;在它们刚呈现的时分,影响和作用远没有现在大,原因首要是受限于当时的硬件与数据量,一起还存在梯度消失等问题。但现在新的激活函数被运用,硬件、数据量都满足,神经网络开端了封神之路。
图画辨认
了解了神经网络的机制后,咱们看一下详细的运用。神经网络的一大运用方向,便是图画辨认范畴。
原理
咱们知道核算机底层存储的其实仅仅 0 和 1,因而关于图画,核算机仅仅把每个像素分成了 rgb 的色值,再把这个数记录下来。
你看到的是公鸡与篮球,核算机看到的只要 010101010101 ……,而且假如你换个角度或进步一下亮度再拍一张,在核算机眼里便是一幅彻底不一样的图了,虽然拍的都是同一个物品,可是每个像素点的色值几乎都变了。
ok,咱们持续让核算机自己去学习,这次用的学习的办法是 卷积神经网络
(这儿的卷积与数学里的卷积不是一个东西)
回想一下,咱们人眼看东西,一眼扫过去就能认出视界里都是些什么玩意儿,但关于视界中的细节,只凭这一眼是无法记住或者说分辩出来的;由于咱们在扫的进程中只重视概括,不看详细细节,只要在咱们需求找细节的时分才会再去细心巡视。
因而,为了让核算机能辨认物体,进步识其他功率,咱们也要让核算机忽略细节,而只管特征,“卷积”便是用来做这个的。在核算机图形中,卷积的一个重要作用便是 提取特征
再来介绍一个概念,卷积核
,卷积核便是用来提取图片特征的
一个卷积核只能提取一种特征,如:
提取横线的卷积核
提取竖线的卷积核
详细做法便是:
- 卷积核“盖”在图片上,从图片左上角开端
- 卷积核与下面盖住的图片对应的数值,上下相乘再相加再均匀
- 假如数值较大,则阐明特征比较相似
- 反之,则差别很大
- 这样想提取的特征就被放大了
- 处理完右上角这一小块,持续向右移动,直至扫过整张图片
卷积核扫过图片一遍后得到一张新的“图”
一次卷积后,还需求对这张新的“图”,做池化
处理。
也便是进一步将图片缩小,便于后续的卷积操作,一般的做法是每个 4×4 的格子中找到数值最高的那个留下,还有一种办规律是 4 个像素取均匀值;这样处理后,图片缩小了,可是保留了特征值。
接着再持续第二次卷积、第二次池化、第三次卷积、第三次池化 ……
在这个进程中图片逐步缩小,卷积提取的特征逐步从部分变成了全体,图片的特征数也越来越多
终究将提取出的特征,扔到由感知机组成的 全衔接神经网络
中,做终究一次分类,这些特征在感知机里经过 丢失函数 进行反馈,经过几百上千万次的不断测验后,终究找到每个特征的适宜权重组合
这些特征的不同组合办法,就能够辨认出来这张图片中是什么物体。
将特征数字化,再去寻觅数字组合的最大呈现概率。
因而,只要数据是能够标签化、量化,并且转换为矩阵的,卷积核就能够乱杀,图画辨认、语音辨认都不是问题。
盲点
这是一张卷积后的图片,咱们现已很难看出这儿面画的到底是啥;可是这些特征经过丢失函数和反向传播,进行必定的练习后得到权重,就能够十分精确地完结图画辨认。
至于这到底是怎样完结的,现已超出了人类的描绘才能,无法再用数学办法直观地展示出来,所以深度学习往往也被称为“黑箱”
由于咱们不知道在感知机的躲藏层里,机器到底是怎样分类和规划权重的,咱们只知道一个模型放下去能精确辨认,另一个模型放进去便是不行。
到了这个阶段,咱们能做的就只要调参了,修正一下参数再扔进去试一下行不行,所以深度学习的调参也被戏称为 炼丹
,把原材料都扔进去,成不成就听天命了
这或许便是神经网络让人恐惧的原因之一,咱们不知道神经网络深深的躲藏层下,到底在产生着什么
蒸汽年代
总算到了激动人心的时刻,在介绍了这么多今后,相信你根本对人工智能有了必定了解,接下来便是以 GPT 为代表的年代。
GPT 是一系列大言语模型,一起它们都是依据谷歌开源的 Transformer 架构完结的,因而咱们先来简略了解一下啥是大言语模型、Transformer 又是啥
大言语模型
大言语模型是一种经过很多文本数据练习的人工智能模型,能够猜测一段文本中下一个词或短语呈现的概率,或是直接生成一段新的文本。
这些模型的规划十分大,一般有数十亿个参数,因而能够处理极端杂乱的言语结构和语义联系。这也使得它们在自然言语处理、机器翻译、问答体系、文本摘要等范畴都有着相当广泛的运用。
借助大言语模型,咱们能够让机器更好地了解和运用自然言语。
简略了解,这就一模型,能听懂人话。
模型练习战略
这儿首要讲两种办法,Data-centric
与 Model-centric
,它们都是机器学习(ML)开发办法
-
Data-centric 办法是指将数据作为机器学习开发的中心。在这种办法中,数据被视为最重要的因素,而模型的角色相对较小。数据质量、多样性和量的添加被视为更优先的考虑因素,而模型的规划和调整仅仅为了更好地适应数据。
-
Model-centric 办规律愈加侧重于模型的规划和开发。在这种办法中,开发人员更多地重视模型的功能和精度。模型的架构、超参数调整和模型优化是首要重视的方面,而数据只被视为输入。模型会被不断优化,直到其到达预定的精度和功能要求。
Transformer
Transformer
是一种用于序列到序列(Sequence-to-Sequence)学习的架构,广泛用于自然言语处理使命中,如机器翻译、文本摘要、对话生成等。其最大的特点是选用了注意力机制
(Attention Mechanism)。
在传统的循环神经网络(RNN)中,信息只能在一个方向上流动,因而无法运用整个输入序列的上下文信息。而 Transformer 中选用的自注意力机制
(Self-Attention),能够让每个词与序列中其他一切词彼此交互并得到一个标明。
降维的说法便是,传统的处理文本的办法只能一个一个地处理,无法全面考虑整个文本的意思。而 Transformer 能够在处理文本时,充沛挖掘上下文之间的相关信息。
自注意力机制的中心是核算注意力权重,以便为每个词分配一个权重,标明该词在当时上下文中的重要性。
这个权重值是经过将查询(query)向量、键(key)向量和值(value)向量进行点积得到的。其间,查询向量是当时时刻步的输入,键向量和值向量是序列中其他方位的标明。
注意力权重由查询向量与一切键向量的点积构成,然后进行归一化处理,终究将注意力权重与值向量进行加权求和,得到标明当时时刻步的输出向量。
在 Transformer 中,自注意力机制被运用于编码器和解码器中。编码器用于将输入序列转换成一组躲藏标明,解码器将这些标明转换成方针序列。编码器和解码器均由多层自注意力模块和前馈神经网络模块组成。
经过运用自注意力机制,Transformer 能够有效地学习长序列之间的依赖联系。
为了更好了解,咱们再来个小栗子
假定有一篇文章,其间有一个语句“我喜欢吃糖块,我也喜欢吃巧克力。”假如咱们想要运用 Transformer 模型对这个语句进行编码,其间就会用到自注意力机制。
首先,模型将这个语句中的每个单词都标明为一个向量。然后,关于语句中的每个单词,自注意力机制会核算它与其他一切单词的相似度,得到一个注意力权重向量。
以“糖块”这个单词为例,自注意力机制会核算出它与语句中其他单词的相似度,得到一个注意力权重向量。
这个向量中的每个元素代表“糖块”与语句中其他单词的相似程度,终究能够用这个向量来核算“糖块”的编码向量。
同样地,自注意力机制也会对语句中的其他单词进行相似的核算,得到它们的编码向量。
终究,一切单词的编码向量将组合成整个语句的向量标明,这个向量能够被用作输入到下一个模型层或输出层中进跋涉一步处理或者生成。
这种自注意力机制能够捕捉到每个单词与其他单词之间的语义联系,然后更好地了解整个语句的意义。
这也是为什么 Transformer 模型在处理自然言语使命方面表现出色的原因之一。
GPT 模型
总算到 GPT 了,开整。
GPT 是 OpenAI 开发的一系列大型言语模型,包含 GPT-1、GPT-2、GPT-3、InstructGPT、ChatGPT/GPT-4。这些模型的架构都依据 Transformer,并运用文本和方位信息的向量作为输入,运用注意力机制来建模词语之间的联系。
GPT 系列模型的全体结构相似,但跟着模型规划的扩展,它们具有更多的参数,包含更多的层数和隐含层维度等等。
GPT-1 | GPT-2 | GPT-3 | |
---|---|---|---|
Parameters | 117 million | 1.5 billion | 175 billion |
Decoder layers | 12 | 48 | 96 |
Context length | 512 | 1024 | 2048 |
Hidden layer size | 768 | 1600 | 12288 |
- GPT-1:运用 BooksCorpus 数据集,包含各种类型的书籍。没有运用 Data-centric AI 战略。预练习后,能够在下游使命微调中进步功能。
- GPT-2:运用 WebText 数据集,经过 Reddit 上抓取出站链接创建而成。运用了一些挑选和清洗数据的 Data-centric AI 战略,获得了 40 GB 的文本。即便在没有微调的情况下,GPT-2 也能够取得很不错的作用。
- GPT-3:运用 Common Crawl 数据集,经过挑选和去重后获得了 570GB 的文本,仅选择了 1.27%的数据。运用了质量过滤、含糊去重等 Data-centric AI 战略。在这个基础上,GPT-3 比 GPT-2 更强。
- InstructGPT:在 GPT-3 的基础上,运用人类反馈去微调模型,使得模型与人类期望相符。运用了严格挑选和培训过的标示者,以及比较数据和奖励模型等 Data-centric AI 战略。
- ChatGPT/GPT-4:商业化产品,OpenAI 不再披露详细细节。已知 ChatGPT/GPT-4 遵从了以前 GPT 模型的规划,并且依然运用 RLHF 来调整模型。由于推理速度较慢且参数数量大约率添加,或许运用更大的数据集。
从 GPT-1 到 ChatGPT/GPT-4,这些自然言语处理模型运用的练习数据经历了几次重要的改变。开始,OpenAI 运用的是相对较小但关于一般研究者来说依然相当大的数据集。跟着时刻的推移,他们运用了更大、更高质量的数据集来练习模型,并终究选用了高质量人工标示的数据集。与此一起,模型的规划并没有经历明显的改变,仅仅跟着数据集变得更大,参数也变得更多,以更好地适应更多的数据。这符合 Data-centric AI 的理念,即强调数据在机器学习中的重要性。
ChatGPT/GPT-4 的成功标明,高质量标示数据至关重要,不管在人工智能的哪个范畴,都能够明显进步模型功能。甚至在许多传统的无监督使命上,运用标示数据也能明显进步功能,例如弱监督反常检测。OpenAI 十分重视数据和标签质量,这种执念是 GPT 模型成功的重要原因之一。
跋文
终究总结一下,AI 的本质其实更像是个 “计算工具”
这能够从入门人工智能的四大学科中得到印证
- 计算学:运用计算学的办法处理数据
- 概率论:寻觅概率最大的答案
- 微积分:求导,得出迫临实在的模型
- 线性代数:处理数据格式,让核算愈加简洁
无一不在朝着概率计算的方向大踏步
现在了解了人工智能、神经网络的机制后,我想咱们也能答复一下那个常被讨论的问题 “人工智能会终究取代人类,成为地球的新主人吗?”
现在咱们知道,不管神经网络展示出来的学习才能有多强,它本质上仍是依据数学办法的一堆程序代码,仍是依据概率而来的计算工具。
即使 AlphaGo 能打败李世石,但它也不明白自己在做什么,它仅仅依据必定的特征、概率和权重来决定某一选项的一个程序罢了,它与那些固定逻辑的程序没有本质上的差异,非要说区其他话,大约便是固定逻辑的程序的数据是依据数据库,而它的数据是依据“概率”。
就好像马戏团里会做管用题的修狗,它并不了解管用是什么,也不会自己真的去算,它仅仅依据驯兽师提早练习好的提示,做出了相应的动作罢了。
在冯诺依曼架构下,几乎不或许诞生具有自我意识的人工智能。冯诺依曼架构的核算机处理数据的办法是顺序执行指令,而人类的大脑则是经过神经元之间彼此衔接来处理信息的。虽然能够经过深度学习和自然言语处理等技术生成人类能够了解的自然言语,但这也仅仅程序在数据上的处理才能,不代表具有自我意识或情感。假如未来真的呈现了,欢迎来打脸(doge)
参阅
- www.bilibili.com/video/BV13U…
- www.bilibili.com/video/BV15A…
- zhuanlan.zhihu.com/p/617057227
- zhuanlan.zhihu.com/p/338817680
- cdn.openai.com/research-co…
- cdn.openai.com/better-lang…
- arxiv.org/pdf/2005.14…