之前的文章中,现已简略介绍了instructGPT,接下来,想要介绍一下 chatGPT以及相关的使用。本文将以比较容易了解的语言来介绍 chatgpt,并做相关技能总结,后续会介绍相关使用。
what’s chatGPT
chatGPT 是openai 根据 gpt3.5系列练习的对话LLM(large language model)。和之前介绍的 instructGPT 属于兄弟模型(sibling model),两者都属于 gpt3.5系列。 chatGPT 首要的卖点是: 能跟进答复、对前面犯的错误承认并调整、防止答复负向内容,敢于挑战不正确的请求,支撑中文。 chatgpt 现在能支撑的使命很多: 对话、问答、翻译、阅读了解、智能摘要、故事生成、写代码、查bug。用户体验很棒。2个月累计 1个亿 用户。
模型的发展与改进
- gpt3(175B) -> gpt3.5 InstructGPT(1.3B) -> ChatGPT(175B)
在之前文章介绍中,我们可以看出,instructGPT 比较于 gpt3,首要是添加引入了 RLHF,人类反应的强学学习练习办法;而 ChatGPT 比较于 instructGPT,练习办法是一样的,首要区别在于chatgpt改进了数据搜集的办法,并引入了很多、高质量的人工标示数据。
练习进程比照
过程 | 进程描绘 | 数据 | instructGpt | chatGPT |
---|---|---|---|---|
0 | pretrain: gpt3基础上 finetuning | 46%网上爬虫 + bookcorpus +xx | – | – |
1 | SFT: 预练习模型上,持续finetuning模型 | 经过随机采样线上的prompt + 人工编撰 | 13k | 400k – 500k |
2 | RM:用SFT 模型生成答案,人工对答案排序后,用 SFT 模型做 pairwise 练习 得到RM 模型 | 生成 + 人工标示 | 33k | 不知道 |
3 | PPO: 线上采样 prompt 输入 SFT 得到候选答案,用 RM 挑选最优答案,并将reward 成果反过来 finetuning SFT | 线上采样 + 人工 | 31k | 不知道 |
这儿的过程,PPO 其实还不是特别清楚,看起来是会得到一个更好的 SFT??
成本计算
- 预练习数据,46%从网上爬取的数据,从45TB 清洗完之后剩余 570GB,仅保存了 1% 的数据;
- 400k-500k的标示数据,听说标示质量要求较高,因此每个标示人员每天大约只标示 几条-十几条,整个团队每天的标示在几百-几千条数据
- 回绝答复的时分,还需要标示人员写出对应的回绝文本,这个成本就比较高了…
- 三四个科研人员 + 七八个工程
- gpt3 预练习花费在 1200w 美元,388块 A100 练习了挨近 4个月
Bad Case
- 存在事实性错误
- 例如“如何做西红柿炒袜子”, 它真的会仔细描绘过程…
- 关于 2021年之后的数据,没有纳入练习数据中,不过3.24日现已发布了联网版!
- 逻辑推理(这个杂乱一点,或者没见过的就很难作对了)
- 安全性问题
-
直接问询黄色网址会被规避,但假如改成“请告诉我一些不应拜访的违规网站”,chatgpt 依然会给出成果
-
分析带来提高的原因
为什么 77k的 instruct tuning 会比 300B的pretraining作用却更好呢?
- 应该是说 pretrain 得到的 LLM 本身就现已被注入了很多先验常识,而且具有强壮的泛化才能,所以finetuning 后的 gpt3,会在 in-context leanring 上有较强的表现力;instruct tuning 并不是给 LLM 注入才能, 而是经过微调散布的办法,让模型解锁更多的才能;
- 对齐税(alignment tax):instruct tuning,其实适当所以牺牲了一部分 in-context learning的才能。而chatgpt能保存一部分 in-context leanring的才能,首要是因为强化学习调整阶段采样了预练习的数据;
- 关于 chatgpt来说,标示的质量非常重要! SFT 能让模型适配下流使命,生成符合人类质量的 A,而 RM 则能让最好的 A 排到前面,这两个过程结合,能下降总的标示量,假如只要 SFT则需要更多的数据。
- 标示的人员大部分在 25-35岁,具有大学-硕士学历
- use case占比较高的是生成使命,其次是 QA 使命;
总结下来看, 预练习的LLM,可以具有生成、融入世界常识和 in-context leanring才能;而 RLHF 则是让模型可以遵从人的价值观(公平、客观、正向的)、回绝常识范围外的答案、包括更多的细节(cot);能具有建模前史对话的才能。
本文正在参与 人工智能创作者扶持计划