0. 导读
GPT 近期密布爆发,作为一般人,咱们能够不了解技能的细节,但不能不知道他的前世今生,以及更重要的要学会如何使用这个工具。
G-Generative, P-Pretrained, T-Transformer
G 是通用的,P 是预练习,T 是一种结构,有用规避了 RNN 的传递缺陷和低效问题,能够处理句中的一切词。
1. 历史
- 2019.02 GPT-2 呈现
- 2020.06 GPT-3 呈现
- 2020.09 GPT-3 + PET(pattern exploiting training) 人工离散模板呈现
- 2022.01 GPT-3 + Chain of thought 推理才能呈现,zero-shot 爆破,呈现“彻悟”现象
作者语:
GPT 的代际迭代不是一般版别的更新,现在看才能上往往是天翻地覆的变化;
GPT 的迭代呈现了越来越快的趋势,关注越来越多,应用越来越广泛,很或许成为智能年代的 OS,随着 OpenAI 的 API 敞开,应用如雨后春笋般呈现,未来很或许会呈现 GPT-based 谷歌、微信、淘宝、抖音们。
2. “彻悟”
英文是 Emergence
,是当下 GPT 领域最前沿相对热点的研讨课题。
彻悟是指,当模型参数逾越千亿,呈现的小样本学习 few-shot
、复杂推理 complex reasoning
、泛化 AGI
和思维链推理才能 chain of thought
。
作者语: GPT 在许多场景的体现越来越挨近甚至逾越人类对应领域的专家才能。
这样的变化是在参数和数据量到达必定规划后忽然呈现的,由于 GPT 的“黑盒”不行预测性,这种呈现的才能成为了当下诸多前沿科学家研讨的焦点。
一方面希望这样的呈现才能能够协助咱们处理许多预期之外的问题,另一方面希望能够了解呈现的特点,尤其是边界,为安全防范做好衬托。
3. 范式搬运
- 1986-2006,第一范式,非神经网络完全监督学习,例如支持向量机、决策树模型等,特征工程
Feature Engineering
主导 - 2006-2017,第二范式,神经网络完全监督学习,例如 Word2Vec、Long short-term memory等深度学习模型,结构工程
Architecture Engineering
主导 - 2017-2019,第三范式,预练习模型+精调,例如 BERT+finetuning、CNN等模型,目标工程
Object Engineering
主导 - 2019-至今,第四范式,预练习模型+Prompt/in-context/instruction,例如 BERT+prompt 等模型,模板工程
Prompt Engineering
主导
作者语: 范式的搬运向着越来越习惯人的特性来转变,从非神经网络转到模仿生物神经处理信息的方法,从规划模板到习惯人类自然语言的输入。
4. Prompt
是在 pretrained language model
PLM 的基础上对原始输入进行改造,规划一种特殊的输入形式/模板,这种模板能够协助 PLM 回忆起预练习阶段学习到的常识,这种模板称为 Prompt
。
- 输入 x = “I love this movie.”
- Prompt 模板 “[X] Overall, it was a [Z] movie”
- 输出 x’ = “I love this movie. Overall, it was a [Z] movie”
- 接着 PLM 完成对 [Z] 的填空,或许结果是 fantastic/great
- 最终将答案转为情感分类的标签
- 这样能够通过 Prompt 必定程度上操控 PLM 的输出
5. In-Context Learning
ICL 是 Large Language Models
LLM 的参数和练习数据量到达必定规划时,呈现出来的一种才能,经验上参数要到达百亿,参数数据量到达百亿~千亿规划。
预练习模型无需 finetune,下流任务供给 few-shot examples 即能够根据上下文学习做预测。
差异于 pretrain + finetune,ICL 是将 few-shot 拼接到 query 前联合预测,无需对模型参数做梯度更新。给上下文示例无论对错都有助于功能提高,但假如给不相关的上下文功能会下降。
- 输入 “今天天气真好”,输出 “正面”
- 输入 “今天命运真差”,输出 “负面”
- 输入 “我很高兴”,输出 “XXX”
6. Instruction Tuning
用自然语言下达指令,不需要 prompt 或许 ICL 特定的结构。
LLM 理解自然语言的技能:T0/FLAN
作者语: 一般人在与 GPT 协作时,有下面 3 种方法能够有用提高功能:
- 推理:在许多语境下,构建有推理过程的解答能够提高功能;
- 示例:<一般文案,风格化构思文案> 用前面这样的格局来生成更优的构思文案;
- 多模态:在 GPT4 中能够尝试供给文本、图片、语音、视频等多模态信息来提高功能。
Reference
- Pretrain, Prompt, Predict
- Prompt-based Learning Paradigm in NLP – Part 1