前语
OpenAI发布的ChatGPT火爆全球以来,全球互联网大厂连续跟进,纷纷宣告了自家的Chat产品,如Google的Bard,百度的文心一言,阿里的通义千问等等。
这些Chat产品背后都是依赖的大言语模型(Large Language Model)。
假如是做一个笔直范畴的Chat产品,有2种方案:
- 直接运用商业化产品,前提是商业化产品支持对模型做fine-tune(微调)。比如OpenAI就支持对它的基础模型做fine-tune来完成个性化的模型。
- 运用开源的大言语模型,对开源模型做fine-tune来完成笔直范畴的Chat产品。
本文要点介绍有较大参考价值的开源大言语模型,方便我们快速找到合适自己运用场景的开源模型。
开源大言语模型
Model | 作者 | 参数量 | 练习数据量(tokens) | 练习本钱 |
---|---|---|---|---|
LLaMA | Meta | 包括 70 亿、130 亿、330 亿、650 亿 4 种参数规划 | 1.4万亿 | 2048个A100 GPU |
Alpaca | Stanford | 70亿 | 52k条问答指令数据,指令数据来源于OpenAI的API返回成果 | 500美元数据本钱+100美元练习本钱 |
Vicuna | UC Berkeley, CMU, Stanford, UCSD and MBZUAI | 130亿 | 70k条问答指令数据,指令数据来源于用户共享出来的对话记载 | 300美元 |
Koala | UC Berkeley | 130亿 | 500k条问答直录功用数据,指令数据来源于网上揭露数据集 | 在公共云计算平台上,预期练习本钱不超过100美元。一台 Nvidia DGX 服务器与8个A100 GPU,需要6个小时练习完成2个epochs。 |
Dolly 2.0 | Databricks | 120亿 | 15k条问答指令数据,指令数据来源于Databricks职工 | 不到30美元 |
ChatGLM | 清华大学KEG 实验室和智谱AI | 60亿和1300亿共2种参数规划 | 4000亿左右,中文和英文token各2000亿 | 数百万人民币 |
鹏程盘古 | 鹏程实验室、华为 | 26亿、130亿和2000亿共3种参数规划 | 2500亿 | 2048 块昇腾处理器 |
开源模型有几个注意点:
-
榜首,LLaMA由Meta开源,LLaMA现在仅用于学术、社会公益项目,不能用于商业化项目。
-
第二,Alpaca, Vicuna, Koala根据LLaMA衍生而来,是在LLaMA大言语模型基础上做了fine-tune得到的,因而练习本钱极低,只需用比较少的指令数据做fine-tune即可。这也是为什么这几个模型的练习本钱很低,因为站在了LLaMA这个伟人的肩膀上。另外,这几个模型因为本质上仍是LLaMA,受限于LLaMA的license约束,相同不能用于商业化意图。
-
Dolly 2.0是在EleutherAI pythia模型衍生而来,指令微调的数据集称为 databricks-dolly-15k,也已开源发布,包含来自数千名 Databricks 职工的 15,000 个高质量的人工生成的问答数据,专为指令调优大型言语模型而设计。且 databricks-dolly-15k 根据(Creative Commons Attribution-ShareAlike 3.0 Unported License)的答应条款,任何人都可以出于任何意图运用、修正或扩展此数据集,包括商业运用。
-
国内现在开源的主要就是清华主导的ChatGLM,以及华为和鹏程实验室主导的盘古alpha模型。
练习模型
假如拿大言语模型做练习,而不是简单的指令微调,那练习本钱非常昂扬,比如ChatGPT练习一次的本钱在140万美元左右。
最近微软开源了DeepSpeed,可以加快大言语模型的练习,将ChatGPT 1750亿参数模型的练习本钱降低到5120美元左右。
其本质是一个开源深度学习练习优化库,可以加快ChatGPT模型的练习,比现在最快的练习方法快大约15倍,假如想自己练习大言语模型的可以参考下。
总结
GPT模型现在真的是一日千里,许多是根据基础模型,结合问答的指令数据对模型做微调而得到的。
现在许多媒体报道的时候喜爱夸张,我们不要看到冒出一个新的开源模型就觉得多么厉害了,绝大部分都是站在伟人肩膀上做了微调而来的。
上面开源大言语模型的表格也会继续更新,欢迎我们关注下面的开源地址。
开源地址
继续更新的开源大言语模型开源地址: ChatGPT模型教程。
大众号:coding进阶。
个人网站:Jincheng’s Blog。
References
- mp.weixin.qq.com/s/7CW4p8RgA…
- mp.weixin.qq.com/s/M-ToNk8SA…