前语

OpenAI发布的ChatGPT火爆全球以来,全球互联网大厂连续跟进,纷纷宣告了自家的Chat产品,如Google的Bard,百度的文心一言,阿里的通义千问等等。

这些Chat产品背后都是依赖的大言语模型(Large Language Model)。

假如是做一个笔直范畴的Chat产品,有2种方案:

  • 直接运用商业化产品,前提是商业化产品支持对模型做fine-tune(微调)。比如OpenAI就支持对它的基础模型做fine-tune来完成个性化的模型。
  • 运用开源的大言语模型,对开源模型做fine-tune来完成笔直范畴的Chat产品。

本文要点介绍有较大参考价值的开源大言语模型,方便我们快速找到合适自己运用场景的开源模型。

开源大言语模型

Model 作者 参数量 练习数据量(tokens) 练习本钱
LLaMA Meta 包括 70 亿、130 亿、330 亿、650 亿 4 种参数规划 1.4万亿 2048个A100 GPU
Alpaca Stanford 70亿 52k条问答指令数据,指令数据来源于OpenAI的API返回成果 500美元数据本钱+100美元练习本钱
Vicuna UC Berkeley, CMU, Stanford, UCSD and MBZUAI 130亿 70k条问答指令数据,指令数据来源于用户共享出来的对话记载 300美元
Koala UC Berkeley 130亿 500k条问答直录功用数据,指令数据来源于网上揭露数据集 在公共云计算平台上,预期练习本钱不超过100美元。一台 Nvidia DGX 服务器与8个A100 GPU,需要6个小时练习完成2个epochs。
Dolly 2.0 Databricks 120亿 15k条问答指令数据,指令数据来源于Databricks职工 不到30美元
ChatGLM 清华大学KEG 实验室和智谱AI 60亿和1300亿共2种参数规划 4000亿左右,中文和英文token各2000亿 数百万人民币
鹏程盘古 鹏程实验室、华为 26亿、130亿和2000亿共3种参数规划 2500亿 2048 块昇腾处理器

开源模型有几个注意点:

  • 榜首,LLaMA由Meta开源,LLaMA现在仅用于学术、社会公益项目,不能用于商业化项目。

  • 第二,Alpaca, Vicuna, Koala根据LLaMA衍生而来,是在LLaMA大言语模型基础上做了fine-tune得到的,因而练习本钱极低,只需用比较少的指令数据做fine-tune即可。这也是为什么这几个模型的练习本钱很低,因为站在了LLaMA这个伟人的肩膀上。另外,这几个模型因为本质上仍是LLaMA,受限于LLaMA的license约束,相同不能用于商业化意图。

  • Dolly 2.0是在EleutherAI pythia模型衍生而来,指令微调的数据集称为 databricks-dolly-15k,也已开源发布,包含来自数千名 Databricks 职工的 15,000 个高质量的人工生成的问答数据,专为指令调优大型言语模型而设计。且 databricks-dolly-15k 根据(Creative Commons Attribution-ShareAlike 3.0 Unported License)的答应条款,任何人都可以出于任何意图运用、修正或扩展此数据集,包括商业运用。

  • 国内现在开源的主要就是清华主导的ChatGLM,以及华为和鹏程实验室主导的盘古alpha模型。

练习模型

假如拿大言语模型做练习,而不是简单的指令微调,那练习本钱非常昂扬,比如ChatGPT练习一次的本钱在140万美元左右。

最近微软开源了DeepSpeed,可以加快大言语模型的练习,将ChatGPT 1750亿参数模型的练习本钱降低到5120美元左右。

其本质是一个开源深度学习练习优化库,可以加快ChatGPT模型的练习,比现在最快的练习方法快大约15倍,假如想自己练习大言语模型的可以参考下。

总结

GPT模型现在真的是一日千里,许多是根据基础模型,结合问答的指令数据对模型做微调而得到的。

现在许多媒体报道的时候喜爱夸张,我们不要看到冒出一个新的开源模型就觉得多么厉害了,绝大部分都是站在伟人肩膀上做了微调而来的。

上面开源大言语模型的表格也会继续更新,欢迎我们关注下面的开源地址。

开源地址

继续更新的开源大言语模型开源地址: ChatGPT模型教程。

大众号:coding进阶。

个人网站:Jincheng’s Blog。

References

  • mp.weixin.qq.com/s/7CW4p8RgA…
  • mp.weixin.qq.com/s/M-ToNk8SA…