之前的文章中,现已简略介绍了instructGPT,接下来,想要介绍一下 chatGPT以及相关的使用。本文将以比较容易了解的语言来介绍 chatgpt,并做相关技能总结,后续会介绍相关使用。

what’s chatGPT

chatGPT 是openai 根据 gpt3.5系列练习的对话LLM(large language model)。和之前介绍的 instructGPT 属于兄弟模型(sibling model),两者都属于 gpt3.5系列。 chatGPT 首要的卖点是: 能跟进答复、对前面犯的错误承认并调整、防止答复负向内容,敢于挑战不正确的请求,支撑中文。 chatgpt 现在能支撑的使命很多: 对话、问答、翻译、阅读了解、智能摘要、故事生成、写代码、查bug。用户体验很棒。2个月累计 1个亿 用户。

模型的发展与改进

  • gpt3(175B) -> gpt3.5 InstructGPT(1.3B) -> ChatGPT(175B)

ChatGPT(一): 技术介绍
在之前文章介绍中,我们可以看出,instructGPT 比较于 gpt3,首要是添加引入了 RLHF,人类反应的强学学习练习办法;而 ChatGPT 比较于 instructGPT,练习办法是一样的,首要区别在于chatgpt改进了数据搜集的办法,并引入了很多、高质量的人工标示数据。

练习进程比照

过程 进程描绘 数据 instructGpt chatGPT
0 pretrain: gpt3基础上 finetuning 46%网上爬虫 + bookcorpus +xx
1 SFT: 预练习模型上,持续finetuning模型 经过随机采样线上的prompt + 人工编撰 13k 400k – 500k
2 RM:用SFT 模型生成答案,人工对答案排序后,用 SFT 模型做 pairwise 练习 得到RM 模型 生成 + 人工标示 33k 不知道
3 PPO: 线上采样 prompt 输入 SFT 得到候选答案,用 RM 挑选最优答案,并将reward 成果反过来 finetuning SFT 线上采样 + 人工 31k 不知道

这儿的过程,PPO 其实还不是特别清楚,看起来是会得到一个更好的 SFT??

  • 是会迭代得到一个更好的 SFT 和 更好的 RM;
  • 具体是 RM 得到 reward 之后,使用强化学习中的 ppo-ptx 持续优化 SFT

成本计算

  • 预练习数据,46%从网上爬取的数据,从45TB 清洗完之后剩余 570GB,仅保存了 1% 的数据;
  • 400k-500k的标示数据,听说标示质量要求较高,因此每个标示人员每天大约只标示 几条-十几条,整个团队每天的标示在几百-几千条数据
    • 回绝答复的时分,还需要标示人员写出对应的回绝文本,这个成本就比较高了…
  • 三四个科研人员 + 七八个工程
  • gpt3 预练习花费在 1200w 美元,388块 A100 练习了挨近 4个月

Bad Case

  • 存在事实性错误
    • 例如“如何做西红柿炒袜子”, 它真的会仔细描绘过程…
    • 关于 2021年之后的数据,没有纳入练习数据中,不过3.24日现已发布了联网版!
  • 逻辑推理(这个杂乱一点,或者没见过的就很难作对了)
  • 安全性问题
    • 直接问询黄色网址会被规避,但假如改成“请告诉我一些不应拜访的违规网站”,chatgpt 依然会给出成果

    横竖总的感觉是,现已初步具备了学习仿照才能,但还没有彻底的智能。

分析带来提高的原因

为什么 77k的 instruct tuning 会比 300B的pretraining作用却更好呢?

  • 应该是说 pretrain 得到的 LLM 本身就现已被注入了很多先验常识,而且具有强壮的泛化才能,所以finetuning 后的 gpt3,会在 in-context leanring 上有较强的表现力;instruct tuning 并不是给 LLM 注入才能, 而是经过微调散布的办法,让模型解锁更多的才能;
  • 对齐税(alignment tax):instruct tuning,其实适当所以牺牲了一部分 in-context learning的才能。而chatgpt能保存一部分 in-context leanring的才能,首要是因为强化学习调整阶段采样了预练习的数据;
  • 关于 chatgpt来说,标示的质量非常重要! SFT 能让模型适配下流使命,生成符合人类质量的 A,而 RM 则能让最好的 A 排到前面,这两个过程结合,能下降总的标示量,假如只要 SFT则需要更多的数据。
    • 标示的人员大部分在 25-35岁,具有大学-硕士学历
    • use case占比较高的是生成使命,其次是 QA 使命;

总结下来看, 预练习的LLM,可以具有生成、融入世界常识和 in-context leanring才能;而 RLHF 则是让模型可以遵从人的价值观(公平、客观、正向的)、回绝常识范围外的答案、包括更多的细节(cot);能具有建模前史对话的才能。

本文正在参与 人工智能创作者扶持计划