开源红睡袍——1.2万亿参数的基于LLaMA的训练数据集-六虎

GPT-4等根底模型推动了AI的快速迭代。然而，当时最强劲的模型基本都是闭源的商业模型或者仅仅是部分敞开的模型。红睡袍(RedPajama)是一个意图创立一系列先进的、彻底开源模型的项目。今日，刚刚完成了项目的第一步：复刻超1.2万亿个参数的LLaMA练习数据集。

现在最强壮的根底模型都躲藏在商业API之后，这约束了研究、定制和运用。如果开源社区能够弥合与闭源模型之间的质量距离，那彻底开源模型就能够消除这些约束。最近，这方面取得了很大发展。从各个方面来看，人工智能正在迎来相似Linux大爆发的时刻。Stable Diffusion的例子表明，开源模型不仅能够与DALL-E这些商业产品的质量相媲美，还能够经过全球社区的广泛参与带来超乎幻想的创造力。跟着最近发布的LLaMA、Alpaca、Vicuna和Koala等半开源模型，环绕大言语模型的运动现已如火如荼地展开；也包含一些彻底敞开的模型，如Pythia、OpenChatKit、Open Assistant和Dolly。

刚刚发布的红睡袍（RedPajama），旨在发生可复制的、彻底敞开的、抢先的言语模型。红睡袍是Together、 Ontocord.ai、苏黎世联邦理工学院DS3实验室DS3实验室、斯坦福根底模型研究中心（CRFM）、斯坦福哈叙研究实验室和魁北克人工智能研究院米拉学院之间协作的产物。红睡袍具有三个要害组件：

质量高、范围广的预练习数据
能够进行大规模练习的根底模型数据
可进行模型改善的、安全可用的指令精调数据集

今日发布的是第一个组件，预练习数据。

红睡袍的基石是LLaMA模型，LLaMA是先进的敞开根底模型套件，挑选它的原因有二：首先，LLaMA是在一个十分巨大的数据集（1.2 万亿个参数）上练习的，该数据集经过了细心的过滤，有明确的质量保证。其次，70亿参数的LLaMA模型经过了更长时刻的练习，远远超越了大言语模型在模型大小和练习语料数量的Chincilla平衡点，保证了此种大小模型上的最佳作用。70亿参数模型关于敞开社区极端有价值，由于它能够在各种GPU上运转，包含许多消费级GPU。然而，LLaMA 及其一切衍生物（包含Alpaca、Vicuna和Koala）仅可用于非商业目的的研究。咱们的目标则是创立LLaMA的彻底开源替代品，既可用于商业应用，还为学术研究供给更通明的通道。

红睡袍根底数据集

红睡袍完好的1.2万亿参数数据集和一个更小的、更容易运转的随机样本能够经过Hugging Face下载。完好数据集在磁盘上解紧缩后约为5TB，紧缩后的下载量约为3TB。

RedPajama-Data-1T总共七个数据来历：

CommonCrawl：CommonCrawl的五个档案数据集，运用CCNet管道进行处理，并经过多个质量过滤器进行了过滤，包含挑选了相似维基百科页面的线性分类器。
C4：规范C4数据集
GitHub：GitHub数据，按许可证和质量过滤而来
arXiv：移除文件索引的科学文章
敞开书本：敞开书本语料库，根据内容相似度进行了去重
维基百科：维基百科页面的子集，删去索引
StackExchange：盛行网站StackExchange下的一个子集，去除了索引文件

关于每个数据来历，细心进行了数据预处理和过滤，并调整了质量过滤器以大致匹配LLaMA论文中Meta AI得出的参数数量：

来历	RedPajama	LLaMA*
CommonCrawl	8780亿	8520亿
C4	1750亿	1900亿
Github	590亿	1000亿
敞开书本	260亿	250亿
ArXiv	280亿	330亿
维基百科	240亿	250亿
StackExchange	200亿	270亿
悉数	1.2万亿	1.25万亿

根据arxiv.org/abs/2302.13… 中的表1估算

Github上已揭露供给一切预处理数据和质量过滤器。任何人都能够按照数据预备方法复制RedPajama-Data-1T。

红睡袍根底数据集的交互式分析

与Meerkat项目的协作协助发布了一个Meerkat仪表板和内嵌组件，用于阅读语料库的Github子集。这是仪表板的预览作用图：

运用Meerkat仪表板以交互方式阅读红睡袍根底数据集中的数据并查看匹配记载

如何安装和运用仪表板的说明能够在Github上找到

下一步：模型、指令和OpenChatKit

复刻预练习数据后，下一步就是练习一个强壮的根底模型。作为INCITE方案的一部分，在橡树岭先进核算设备 (OLCF)的支持下，正在练习一整套模型，第一批模型将在未来几周内推出。

一旦有了强壮的根底模型，就能够用指令精调模型了。Alpaca展现了指令精调的力量——仅需5万条高质量、多样化的指令，模型就能够解锁令人惊叹的改善作用。而经过OpenChatKit已汇集了数十万条高质量的自然用户的指令，这些指令将用于发布红睡袍模型的指令优化版。

开源红睡袍——1.2万亿参数的基于LLaMA的训练数据集

红睡袍根底数据集

红睡袍根底数据集的交互式分析

下一步：模型、指令和OpenChatKit

相关文章

Git stash: 一些硬核使用技巧

go-sentinel流量控制(五)：github优秀开源项目源码分析

【云原生】k8s 一键部署（ansible）

Mac上brew安装的ffmpeg失效修复

作者信息