四个00后的疯狂开源计划：整个互联网转成大模型语料，1亿token嵌入成本只需1美元-六虎

Arxiv上一切论文转成Token，加起来不过14.1GB罢了。

这是最新爆火开源方案亚历山大完结的壮举。

事实上，这还仅仅第一步。

他们最终是想要将整个互联网变成Tokens，换言之全都转化成ChatGPT等大模型了解这个国际的方法。

一旦这样的数据集诞生，那岂不是为开宣布GPT-4这样的大模型又新增一大利器，上知地舆下知地舆指日可待了？！

音讯一出，瞬间引发巨大关注。

网友们赞赏，史诗般的。

而这背面仅是四个平均年龄20岁的少年发起，目前Arxiv一切论文数据集已经发布，他们将于下周发布嵌入（Embedding）查找平台。

从Arxiv上一切论文开端

超过400万个项目、6亿个token，30.7亿个向量维度。

这个名为亚历山大的开源方案，首先从Arxiv每篇论文上开端。

挑选的方法是嵌入，简略来说，便是将现实国际的各种目标具象成核算机所能了解的向量。

最经典的例子便是将原始图画表明为灰度像素。

这种技术最大的特色便是可以表明出人类感知到的语义相似性。

比方，当有10个词表明同一事物时，很难经过关键词查找论文。但嵌入就可以完结，因而很适用于查找、聚类、引荐和分类。

根据实用性和功率的考虑，开发团队只挑选嵌入了论文的标题和摘要。

在测验各种模型之后，最终挑选运用InstructorXL文本嵌入模型，经过简略地提供使命指令，而无需任何微调，适合于多种使命（比方分类、检索、聚类、文本评估等）和范畴（比方科学、金融、医学等）》

下周他们将发布Arxiv查找。目前为止的流程是，首先对100篇最接近的文章进行相似性查找，然后即时核算这些内容的嵌入，并进行第2次更复杂的查找。

最终目标是一整个互联网嵌入方案。

之所以要展开这样一次张狂的开源方案，主要有两方面的原因。

一方面是嵌入巨大的价值。国际上许多问题仅仅查找、聚类、引荐或分类，而这些事情嵌入都十分拿手。而且也如前所述，可以解决一些复杂的难题。

另一方面成本是一次性的且很便宜。大多数情况下无需对同个文件进行二次核算。目前每1亿个Token只需1美元。

但他们并没有找到任何敞开的嵌入数据集，因而这样的组织应运而生。

接下来他们还将敞开更多的数据集，而这些均由这些用户自行挑选。在官网上除了已公开的数据集，剩下的几个待开源项目敞开了投票通道。

值得一提的是，背面是一群平均年龄仅为20岁的少年team完结的。

而他们的团队姓名同样也很霸气，Macrocosm（宏观国际）联盟。

只要你扩大到满足远，人类就会成为一个单一的生物。

就官方介绍，他们致力于为ChatGPT和其他类似产品构建插件，一起也在开发中心产品，根据大模型的个人研究助理，协助学习、教育和科研。

感兴趣的旁友可戳下方链接了解~

alex.macrocosm.so/download
参阅链接：
[1]www.macrocosm.so/
[2]twitter.com/willdepue/s…
[3]github.com/macrocosmco…
[4]www.pinecone.io/learn/vecto…

—完—