本文正在参加「金石计划 . 分割6万现金大奖」

导语

本文扼要总结了GPT、GPT-2和GPT-3的一些发展和对比。

GPT:Improving Language Understanding by Generative Pre-Training

GPT-2:Language Models are Unsupervised Multitask Learners

GPT-3:Language Models are Few-Shot Learners

GPT简介

GPT是在Transformer发表后一年的作业,它首要是利用了Transformer的Decoder来进行言语模型的练习。他的预练习方针函数为:

GPT、GPT-2和GPT-3概览

整个模型的结构由一个输入的投影层将token id映射为embedding,中间12层的Transformer Decoder Layer和终究的一个输出投影层组成。

GPT、GPT-2和GPT-3概览

他的无监督预练习方法是自回归模式的,也就是说GPT是单向的言语模型,在预测下一个token时,只能看到前面的token。预练习的语料库为BooksCorpus数据集。

在进行下流有监督的使命时,GPT取最终一个token经过Transformer后的输出作为对输入的一个编码(类似于[CLS]在BERT中的功能),之后接一个Linear层映射到输出的维度。

GPT、GPT-2和GPT-3概览

GPT-2

GPT在发表后,很快BERT就出现了,并且以全面碾压的姿态在一切使命上完爆GPT-1,因此,OpenAI团队便也加大了GPT的练习数据和模型参数,但是在做到下流使命的时分,它会用一个叫做zero-shot的设定,zero-shot是说,在做到下流使命的时分,不需求下流使命的任何标示信息,那么也不需求去从头练习现已预练习好的模型。这姿态的优点是我只需练习好一个模型,在任何地方都可以用。

GPT、GPT-2和GPT-3概览

根据沐神所说,假如作者就是在GPT-1的基础上用一个更大的数据集练习一个更大的模型,说得到结果比BERT好一些,或许也就好那么一点点,不是好那么多的情况下,我们会觉得GPT-2这篇文章就没什么意思了,工程味特别重。那么我换一个视点,选择一个更难的问题,我说做zero-shot。尽管结果或许没那么厉害了,没那么有优势,但是立异度一下就有了。

GPT-2的预练习语料则是在reddit上选取评分大于3分的网页,然后进行爬取得到的高质量语料,大约40G左右。

GPT-3

GPT-3的论文更像是一篇技术陈述,长达63页,首要介绍了一些试验上的结果。GPT-3将模型的参数量直接提高到了1750亿参数,越GPT-2的100多倍,功能则是提高很大。

同时,GPT-3提出在下流使命上进行few-shot或许1-shot时,无需进行梯度更新的方法,这儿可以通过如下的图示来解释:

GPT、GPT-2和GPT-3概览

左面展示了Zero-shot、1-shot和Few-shot的差异,他们都是在做预测,只是在输入数据时,zero-shot只说明使命,让模型就直接预测输出;1-shot则会在使命后面接一个比如提示一下模型;few-shot则是接若干个比如用来提示。

作者总共设置如下几种不同size的模型。

GPT、GPT-2和GPT-3概览

因为GPT-3的模型参数量暴增,所以预练习的语料也需求相应添加。首要,作者练习了一个简略的二分类器,分类器的正样例是GPT-2中爬取到的高质量数据,负例则是Common Crawl的低质量数据,接着再用这个分类器将一切的CommonCrawl数据进行分类,取出其中的正样例。然后运用lsh(部分灵敏哈希算法)对类似的文档进行过滤,最终加入BERT、GPT2的那些预练习数据也作为语料,得到一个非常大的语料。

GPT、GPT-2和GPT-3概览

试验方面,GPT-3超过了绝大多数的zero-shot或许few-shot的state-of-the-art方法。

最终,作者也评论了GPT-3的一些影响,诸如性别成见、宗族成见、宗教成见等问题,并且无法保证长文本生成时的连贯性,存在下文不停重复上文的问题。

总结

GPT系列的模型让我们看到了言语模型届的”大力出奇迹“,到终究的GPT-3模型时参数量现已变成了1750亿的参数,是原始GPT(1.25亿)参数的1000多倍,不过GPT-3也在各种使命上展示了非常惊艳的作用,影响无疑是深远的,并且也证明了起码在现在阶段,通过添加参数而提高模型功能是远远还没有到顶的。