【新智元导读】前几天发布的LLM排行榜引发业内人士广泛评论,新模型Falcon在功能上真的能打过LLaMA吗?符尧实测来了!
前段时间,初出茅庐的猎鹰(Falcon)在LLM排行榜碾压LLaMA,在整个社区激起千层浪。
但是,猎鹰真的比LLaMA好吗?
简短答复:可能不是。
符尧团队对模型做了更深入的测评:
「咱们在MMLU上复现了LLaMA 65B的评价,得到了61.4的分数,挨近官方分数(63.4),远高于其在Open LLM Leaderboard上的分数(48.8),并且显着高于猎鹰(52.7)。」
没有花哨的提示工程,没有花哨的解码,一切都是默认设置。
现在,Github上现已公开了代码和测验办法。
关于猎鹰超越LLaMA存疑,LeCun表态,测验脚本的问题…
LLaMA真实力
现在在OpenLLM排行榜上,Falcon位列第一,超越了LLaMA,得到了包括Thomas Wolf在内的研讨人员的力荐。
然而,有些人对此表明疑虑。
先是一位网友质疑,LLaMA这些数字从哪来,看起来与论文数字不一致…
随后,OpenAI科学家Andrej Karpathy也对LLaMA 65B为什么在Open LLM排行榜上的分数显着低于官方(48.8 v.s. 63.4)表明重视。
并发文,到现在为止,我一向防止在推特上宣布关于猎鹰的文章,因为这一点,不确定。
为了弄清楚这个问题,符尧和团队成员决议对LLaMA 65B进行一次公开的测验,成果得到61.4分。
在测验中,研讨者没有运用任何特别机制,LLaMA 65B就能拿到这个分数。
这一成果恰恰证明了,如果想要模型完成挨近GPT-3.5的水平,最好是在LLaMA 65B上运用RLHF。
依据便是,近来符尧团队宣布的一篇Chain-of-Thought Hub论文的发现。
当然,符尧表明,他们这一测评并非想要引起LLaMA和Falcon之间的争端,究竟这些都是伟大的开源模型,都为这个范畴做出了严重的贡献!
别的,Falcon还有愈加方便的运用答应,这也让它有很大的发展潜力。
关于这一最新测评,网友BlancheMinerva指出,公正的比较应该在默认设置下运转猎鹰(Falcon)在MMLU上。
对此,符尧称这是正确的,并正进行这项作业,预计在一天后能够得到成果。
不管最终的成果怎样,要知道GPT-4这座山峰才是开源社区真实想要追求的方针。
OpenLLM排行榜问题
来自Meta的研讨人员称誉,符尧很好地再现了LLaMa的成果,并指出了OpenLLM排行榜的问题。
与此一起,他还共享了关于OpenLLM排行榜的一些问题。
首要,MMLU的成果:LLaMa 65B MMLU成果在排行榜上是15分,但对7B模型来说是相同的。13B、30B模型也存在较小的功能距离。
OpenLLM真的需要在发布哪个模型是最好的之前看看这个。
基准:这些基准是如何选择的?
ARC 25 shot和Hellaswag 10 shot好像与LLM并不特别相关。如果能在其间参加一些生成式基准就更好了。尽管生成式基准有其局限性,但它们仍然是有用的。
单一平均分:将成果减少到单一分数总是很吸引人的,平均分是最容易的。
但在这种情况下,4个基准的平均值真的有用吗?在MMLU上取得1分和在HellaSwag上取得1分是相同的吗?
在LLM快速迭代的国际里,开发这样一个排行榜肯定有一定的价值。
还有来自谷歌研讨人员Lucas Beyer也宣布了自己的观念,
张狂的是,NLP研讨人员对同一个基准有不同的了解,因此导致了完全不同的成果。一起,每逢我的同事完成一个指标时,我都会立即问他们是否真的检查将官方代码的完美重现,如果没有,就抛弃他们的成果。
别的,他还表明,据我所知,不管模型如何,它实际上都不会重现原始基准测验的成果。
网友赞同道,这便是LLM基准的实际…
Falcon——开源、可商用、功能强
说到Falcon,其实值得咱们再好好回顾一下。
按LeCun的说法,大模型时代,开源最重要。
而在Meta的LLaMA代码遭泄之后,各路开发者都开端摩拳擦掌。
Falcon正是由阿联酋阿布扎比的技术创新研讨所(TII)开发的一支奇兵。
刚发布时从功能上看,Falcon比LLaMA的体现更好。
现在,「Falcon」有三个版别——1B、7B和40B。
TII表明,Falcon迄今为止最强壮的开源语言模型。其最大的版别,Falcon 40B,拥有400亿参数,相关于拥有650亿参数的LLaMA来说,规模上仍是小了一点。
不过,此前TII曾表明,别看咱Falcon规模虽小,功能却很能打。
先进技术研讨委员会(ATRC)秘书长Faisal Al Bannai认为,「Falcon」的发布将打破LLM的获取方法,并让研讨人员和创业者能够以此提出最具创新性的运用事例。
FalconLM的两个版别,Falcon 40B Instruct和Falcon 40B在Hugging Face OpenLLM排行榜上位列前两名,而Meta的LLaMA则位于第三。
而前文所讲的有关排行榜的问题也正是这个。
尽管「Falcon」的论文现在还没公开发布,但Falcon 40B现已在通过精心筛选的1万亿token网络数据集的上进行了很多练习。
研讨人员曾泄漏,「Falcon」在练习过程十分重视在大规模数据上完成高功能的重要性。
咱们都知道的是,LLM对练习数据的质量十分灵敏,这便是为什么研讨人员会花很多的精力构建一个能够在数万个CPU核心上进行高效处理的数据管道。
意图便是,在过滤和去重的基础上从网络中提取高质量的内容。
现在,TII现已发布了精粹的网络数据集,这是一个通过精心过滤和去重的数据集。实践证明,十分有效。
仅用这个数据集练习的模型能够和其它LLM打个平手,甚至在功能上超越他们。这展现出了「Falcon」卓越的质量和影响力。
此外,Falcon模型也具有多语言的才能。
它了解英语、德语、西班牙语和法语,并且在荷兰语、意大利语、罗马尼亚语、葡萄牙语、捷克语、波兰语和瑞典语等一些欧洲小语种上也懂得不少。
Falcon 40B仍是继H2O.ai模型发布后,第二个真实开源的模型。
别的,还有一点十分重要——Falcon是现在唯一的能够免费商用的开源模型。
在早期,TII要求,商业用途运用Falcon,如果产生了超越100万美元以上的可归因收入,将会收取10%的「运用税」。
但是财大气粗的中东土豪们没过多长时间就取消了这个约束。
至少到现在为止,一切对Falcon的商业化运用和微调都不会收取任何费用。
土豪们表明,现在暂时不需要通过这个模型挣钱。
并且,TII还在全球搜集商用化计划。
关于有潜力的科研和商业化计划,他们还会供给更多的「练习算力支持」,或者供给进一步的商业化时机。
这简直便是在说:只要项目好,模型免费用!算力管够!钱不行咱们还能给你凑!
关于草创企业来说,这简直便是来自中东土豪的「AI大模型创业一站式解决计划」。
依据开发团队称,FalconLM 竞争优势的一个重要方面是练习数据的选择。
研讨团队开发了一个从公共爬网数据集中提取高质量数据并删除重复数据的流程。
在彻底整理多余重复内容后,保留了 5 万亿的token——足以练习强壮的语言模型。
40B的Falcon LM运用1万亿个token进行练习, 7B版别的模型练习token到达 1.5 万亿。
(研讨团队的方针是运用RefinedWeb数据集从Common Crawl中仅过滤出质量最高的原始数据)
此外,Falcon的练习本钱相对来说愈加可控。
TII称,与GPT-3相比,Falcon在只运用75%的练习核算预算的情况下,就完成了明显的功能提升。
并且在推断(Inference)时只需要只需要20%的核算时间,成功完成了核算资源的高效使用。
参考资料:
twitter.com/Francis_YAO…
twitter.com/ylecun/stat…