Meta“羊驼”(LLaMA)的开源可商用复现品OpenLLaMA发布严重更新:
在1T token上练习出来的130亿参数版别现已正式上线。
至此,这一练习量和原版羊驼已彻底一致。
与此同时,之前发布的70亿以及30亿参数版别也完成了1T token的练习,并发布PyTorch和JAX权重。
可谓“一家人整整齐齐”。
功能测验显示,OpenLLaMA在多项任务中的体现都与原始LLaMA适当,而且不乏逾越的状况。
一个彻底开源且供商用的LLaMA竞品家族就此诞生了。
目前,OpenLLaMA在GitHub上的标星数已近5k。
重训“羊驼”,最香替代品全面敞开商用
OpenLLaMA是UC伯克利的博士生Hao Liu发起的项目(Xinyang Geng具有同等奉献,也是该校博士生)。
它在Together公司发布的RedPajama数据集上练习,该数据集其实也是LLaMA练习集的复制品,总共包含1.2T token。
除了数据集不太相同之外,OpenLLaMA运用了与原始LLaMA彻底相同的预处理过程和练习超参数,包含模型架构、上下文长度、练习过程、学习率时间表和优化器,可以说是“重训”了一把。
今年5月,该团队率先发布了70亿参数版别,不过其时练习token仍是3000亿。
依照方案,如今和原LLaMA练习数据量一致的130亿参数版别和70亿、30亿版别一同发布。
据介绍,130亿版别是与Stability AI合作练习的,后者主要提供计算资源(当初Stable Diffusion也是这么与Stability AI合作)。
和另外两个版别相同,OpenLLaMA-13B也以两种格式发布权重:
一是用于Hugging Face transformer的PyTorch格式。
运用该格式时需求留意先避免运用Hugging Face快速分词器(tokenizer),由于它的主动转化功能有时会给出不正确的tokenization。
所以可以先直接运用LlamaTokenizer class来完成,或许用AutoTokenizer class,将use_fast赋为False。
二是用于EasyLM框架的EasyLM格式。
在此请留意,与原始LLaMA不同,该OpenLLaMA的分词器和权重是彻底从头开始练习的,因而不再需求获取原始 LLaMA的这俩信息。
接下来,在练习量已达成一致的状况下,看OpenLLaMA各规划模型的功能体现怎么。
在这里,作者运用EleutherAI发布的自回归语言模型few-shot评价框架(lm-evaluation-harness)对两只“羊驼”进行评价,以及还加入了“第三者”:
EleutherAI在Pile数据集上练习的60亿参数模型GPT-J,它的练习token数是5000亿。
需求留意的是,可能是由于不同的评价协议,作者跑出来的LLaMA成果与原始LLaMA略有不同。
以下是成果:
赤色小方框为OpenLLaMA超过或许与原LLaMA体现相同的状况。
在红框之外,两者的距离也不大。
而从平均体现来看,OpenLLaMA-7B和LLaMA-7B得分都是0.55,OpenLLaMA-13B和LLaMA-13B也都相同,为0.57,主打一个 势均力敌。
与此同时,只有30亿参数的OpenLLaMA平均功能逾越60亿参数的GPT-J。
Meta也要发可商用大模型了
特斯拉前AI高级总监Andrej Karpathy在上个月的微软Build大会的演讲上,曾多次表达一个意思:
LLaMA-65b就是目前最好的开源根底模型,可惜没能商用。
现在,650亿的商用平替羊驼虽然还没出现,130亿和70亿是现已妥妥安排好了。
不过,也有一则好消息。
就在几天前,据The Information爆料,Meta AI正方案发布一个新的LLM,而且 免费供大家商用。
有观点指出,在如今职业大佬如谷歌Bard和OpenAI ChatGPT都“紧闭大门”的状况下,Meta这一做法可能会引发连锁反应,而且开源模型和闭源模型的距离会越来越小。
就且拭目而待。
关于OpenLLaMA的一切相关链接:
github.com/openlm-rese…
huggingface.co/openlm-rese…
本文参阅链接还包含:
www.artisana.ai/articles/me…
—完—