引言
最近,各类大模型(简称LLM)如雨后春笋,目不暇接,于是“狠心”收拾了这些模型的进化联系,以飨读者。
(1) ChatGPT三步走
先回顾下ChatGPT练习方法。
2022年12月5日,OpenAI推出ChatGPT,在强大的GPT-3.5大模型基础上,引进人工数据标注和强化学习(RLHF),不断微调(finetune)练习而来。
其间,GPT-3.5指其时的InstructGPT,仅有一篇论文简单介绍练习流程。而ChatGPT发布时,信息更少,没有论文,只在官网简单贴了个与Instruct GPT高度相似的流程图,区别是:
- 标注人员、动物换了个logo,如 青蛙→水獭。
- 添加PPO模型初始化注解
模型 | 练习进程 |
---|---|
GPT 3.5 InstructGPT | |
ChatGPT |
已然如此,老老实实从InstructGPT论文里梳理“三步走”:
- (1)SFT:监督指令微调,从5.4w人工标注的指令集中抽取1.3w,在GPT-3大模型上微调。
- (2)RM:根据新模型生成一批数据集<prompt,response>,重组成3.3w排序对形式,人工标注后,用于练习奖赏模型。奖赏模型结构同基座LLM,论文里全部用6B等级,规模大了反而欠好。
- (3)PPO:RLHF的具体实现,RM奖赏模型作为critic(评论家),SFT阶段的大模型作为actor(行动家),二者相互配合,actor学习指令集,critic评价打分,再更新权重,进入下一轮。论文里对比两种损失函数,后选用混合预练习损失PPT_ptx,兼顾预练习的作用。
(2)ChatGPT复现思路
从大模型(1750亿等级)入手,收集范畴指令集,fine-tune(精调),植入RLHF、CoT、ICL等技能,试图趋近ChatGPT作用。
这条路由于道路清晰,目标明确,风险较小(只需速度够快),选手众多,如火如荼:
- GPT-3和InstructGPT(3.5系列)没开源——没联系,找GPT相似结构的大模型作为基座。
- OpenAI用了海量练习数据——用已有大模型(1750亿等级)冷启动
- OpenAI用了指令微调、强化学习——改代码,植入进去,已有ChatGPT开源实现(如Colossial AI/DeepSpeed/Openassistant/Trlx等)
- OpenAI用了许多算力——结合本身业务,做范畴微调、裁剪。
更多见文章:漫谈Prompt(提示工程)与CoT(思维链)
总结起来,垂类大模型落地过程,如图所示
- ① 挑选适宜的基座LLM,并依据本身条件挑选对应规模
- ② 准备范畴语料集、指令集(如调ChatGPT)
- ③ 履行第一步SFT,简单微调LLM
- ④ 评价更新后的LLM作用,可借用业界自动评价东西或人工抽样评价
- ⑤作用还不合格?两条路:扩展基座模型规模、持续走第二三步
- ⑥奖赏模型(Reward Model)练习:需求提早人工评价或用自动化计划替代(仍是ChatGPT)
- ⑦强化学习练习:PPO、PPO_ptx
图里的信息截止2023年3月,原图见博客
(3)如何选取基座模型
有论文(The Practical Guides for Large Language Models)依照模型结构收拾了大模型的进化树
- Encoder-Only结构:BERT系列
- Decoder-Only结构:GPT系列,成员最多
- Encoder-Decoder结构:BART、T5、GLM
图源
其间开源模型尤为“耀眼”,拿来就用。
- GPT-2:彻底开源,合适自己晋级架构到GPT-3,并加上RLHF流程,照着OpenAI趟出来的路再走一遍。
- BLOOM:彻底开源,2022年7月,法国BigScience开源的GPT-3等级LLM,176b,掩盖46种言语和13种编程言语,中文语料占比高达16%,仅次于英文的30%
- OPT:2022年5月,META AI开源,175b。英文为主,中文欠安。只能科研,不能商用。
- LLaMA:2023年2月25日,META根据OPT微调出一个用于谈天的大模型,7b~65b, 依旧英文为主,非商用,
- GPT-Neo、GPT-J和GPT-NeoX:开源,英语为主。源自一个富有极客叛变精力的全球开源安排EleutherAI,已然OpenAIcolsed了,为地主独占,那就揭竿而起,自己做真实的开源。
- GLM:清华发布,亚洲仅有上榜的175b等级LLM,中文版的ChatGLM商用受限。
LLM看着许多,但彻底开源的寥寥无几,这让准备商用的研制人员头疼不已。
(4)LLM进化图谱
面临OpenAI的closed趋势及商业巨子的垄断,全球各地都在想办法做真实的开源大模型。
国外有MTEA、HuggingFace、BigSicence、EleutherAI,国内有清华系以及Open开头的安排(如OpenBMB和OpenBuddy),还有个人。
供求严峻失衡情况下,只需呈现半开源的LLM,我们都会“哄抢”。
2023年3月,META半开源的LLaMA模型被人“走漏”,接着迅速“进化”,每隔几天就会呈现一个新“物种”,短短几个月,现已演化成全球最大的开源LLM生态系统。
2023年5月6日,一篇文章广为流传:
- 谷歌内部文件走漏:咱们和OpenAI都没有护城河
主要观念:
- Google 和 OpenAI 都不会取得竞争的成功,成功者会是开源 AI;
- 开源 AI 用极低成本的高速迭代,现已赶上了 ChatGPT 的实力;
- 数据质量远比数据数量重要;
- 与开源 AI 竞争的成果,必定是失利;
- 比起开源社区需求 Google,Google 更需求开源社区。
已然开源才是出路,那么现在的开源格局是什么样?
不识庐山真面目,只缘身在此山中。
我花了不少时刻,收拾一张图,包括各方发展,LLM之间的错综复杂,让我们看到更大的视界。
图分4块:
- ① 国外基座LLM: 介绍国外可用的开源基座模型
- ② LLaMA生态系统:各方对LLaMA的魔改
- ③ 国内开源LLM:清华ChatGLM及其他开源LLM
- ④ LLM练习结构:练习加快技巧、练习结构
注:以上信息不全,仅供参考,欢迎反应。
① 国外基座大模型
OpenAI官方模型里,除了GPT-2可用,其它模型(ChatGPT/GPT-4)只能远观,并作为大模型比赛里的标杆供人崇拜、仰视、跟从。
多数人连api调用权限都没有,更不用说理论方法、权重、数据和代码了。
极客安排EleutherAI建立没多久,就先后推出GPT-Neo、GPT-J和GPT-NeoX模型,开源数据集 Pile,并发布OpenChatKit,颇有开源霸主风仪。Pythia是耶鲁大学与EleutherAI协作的产物,Dolly(多莉)是DataBrick根据Pythia发布的谈天LLM。
法国科研安排发布的BLOOM很有用: 176b, 多言语,免费商用,属于非英语国家LLM开发者的首选。2023年2月底推出指令微调版别BLLOMZ。
协作推出BLOOM的闻名LLM渠道HuggingFace也没闲着,推出了自己的谈天LLM:HuggingChat
相似的开源安排,还有Stable AI,推出Stable LM。
阿联酋TII组织发布的Falcon(猎鹰)一度霸占了测评榜单,拔得头筹。当然评测存在疑点。国内组织闻风而动,6月9日,OpenBuddy将其汉化,并集成AI画图,6月14日,深圳大学Linly(伶荔)团队扩充中文词表。
②LLaMA生态系统
自从权重走漏以来,不到一个月,一系列改善版“呈现”:指令调整、量化、质量改善、人类评价、多模态和 RLHF 等等变体。每个版别距离才几天时刻,进化速度如此之快。
“羊驼”家族进化概况
- 3月14日,斯坦福根据self-instruct指令集完结SFT
- 3月21日,斯坦福凭借LoRA技能,进一步降低了练习成本;5月26日,LoRA进化版别QLoRA呈现,单机练习持续减量、加快
- 3月23日,第一个免GPU版别的羊驼诞生,直接CPU单机部署,4月12日,GPT4All能够额在笔记本部署
- 3月31日,伯克利引进更多数据,开源FastChat,并推出评测榜LMSYS
- 4月12日,引进CoT数据,提升推理能力
- 羊驼汉化上,先后呈现骆驼、Linly-ChatFlow、ChatLLaMA和玉兰
- 5月3日,第一个可商用的LLaMA呈现,OpenLLaMA
- META自己也在研讨RLHF的必要性,推出LIMA
③国内开源大模型
国内LLM
- 2月20日,复旦第一个尝鲜,推出MOSS
- 随后,诞生一批ChatGPT跟从者,文心一言、科大讯飞、通义千问等
- 详见评测:千模大赛哪家强?大言语模型中文评测实践
开源LLM上
- 坐拥亚洲仅有上榜LLM(GLM)的清华优势很大,先后推出ChatGLM、ChatGLM-6B以及多模态版别Visual-GLM。
- 但是,这些模型商用受限,于是清华NLP实验室背景的面壁智能推出CPM系列,从ant到bee、Luca,功用掩盖画图、插件、联网、应用市场,颇有OpenAI的影子,重要的是,这些彻底开源。
- 校企协作是个好路子,一个有底子有人,一个有钱有数据。4月13日推出的知乎“知海图”根据CPM,5月23日推出的“360智脑”根据ChatGLM。
- 别的,也有不少自给自足的。智源社区推出“天鹰”,王小川的百川智能,中科院的“紫东太初”(不开源),纯RNN的ChatRWKV。
④练习技巧及结构
练习技巧上,LoRA系列名声最大,其次是量化、蒸馏、联邦学习。
- LoRA低秩适配,QLoRA将量化引进进来。
- 现在,LoRA系列现已成为言语、图画等范畴的标配
- 5月15日,康奈尔将量化(GPTQ)引进微调结构
- 5月31日,港科大发布闭源模型的蒸馏结构(LION, AKD)
- 6月6日,FATE社区发布联邦学习大模型,处理隐私、数据缺乏问题
练习结构上
- ColossalAI起步较早,2月15日就发布三步流程结构(其时没有SFT,后边补齐)
- 开源结构还有:Open Assistant、Trlx等
- 微软的DeepSpeed范围最广,4月12日,还推出掩盖三步流程的DeepSpeed Chat
- 各方还在研讨三步走的合理性,有没有更好的计划。如:港科大发布练习结构LLMFlow,北大河狸改善RLHF,使用更好的SafeRLHF。
概况
(5)跋文
开源大模型许多很全,迭代速度太快,只需1天不看资讯,就会漏掉最新发展。
这对大模型从业者来说,挑战极大。
ChatGPT复现专题文章才开端,不确定能否按期写完。
个人能力、精力有限,欢迎我们查缺补漏,
附
- 公众号版别
- 技能博客