机器之心报道

机器之心编辑部

开源又没完全开源。

咱们知道,Huggingface 是 AI 范畴闻名的开源平台,任何人和机构都可以在该平台上发布自己以及运用他人的模型、数据集,为业界提供了研讨便当。因此它深受 AI 圈的喜爱,其最受欢迎的 Transformer 库已在 GitHub 上收获 102k 的 Star 量。

不过近日,由 TII 开发并发布在 Huggingface 上的一个大模型引发了广泛争议。该大模型是 400 亿参数的因果解码器模型 Falcon-40B,它在 RefinedWeb 的 1000B token 上进行练习,并运用精选数据集增强。它在 Huggingface 的 OpenLLM 排行榜上排首位,其功能优于 LLaMA、MPT、RedPajama 和 StableLM 等。

Huggingface榜首开源模型惹争议:魔改Apache协议,达到一定门槛要收钱

排行榜地址:huggingface.co/spaces/Hugg…

尽管 Falcon-40B 模型自身很强壮,但其遵循的开源协议却在开源圈引起了轩然大波。它在一个答应商业运用的答应证下可用,即如下 TII Falcon LLM License。

Huggingface榜首开源模型惹争议:魔改Apache协议,达到一定门槛要收钱

开源协议:huggingface.co/tiiuae/falc…

该答应证部分依据 Apache License Version 2.0。Apache License 2.0 协议来自闻名的 Apache 基金会,它对商业应用友好。运用者可以在需求的时候修正代码来满足需求并作为开源或商业产品发布 / 销售。

但有人发现了TII Falcon LLM License 的一些「猫腻」。推特用户 @natfriedman 总结了它与 Apache License 2.0 开源答应的相似与不同之处。其间相似之处在于都颁发运用、修正和分发答应著作的广泛答应,要求在分发中包括答应文本和归属,并具有责任约束、担保豁免权。

不过差异在于,TII Falcon LLM License 要求一旦达到收入门槛,需付出商业用途特许权运用费,而大多数开源答应不需求。TII Falcon LLM License 对如何发布或分发著作也有额外约束, 比如要求归属于「Falcon LLM technology from the Technology Innovation Institute」。

一起,TII Falcon LLM License 不答应在其他不同的答应下重新授权著作,而大多数开源答应答应衍生著作依据不同的协议取得答应。TII Falcon LLM License 还明确地排除了 Falcon LLM 的某些版本 / 大小的答应,而开源答应通常适用于一切版本。

最后,TII Falcon LLM License 对修正源代码和方针代码都有额外的要求,除非分发编译的模型。总之,该答应答应敞开运用和修正,但一起又保留了许多自有权力。

Huggingface榜首开源模型惹争议:魔改Apache协议,达到一定门槛要收钱

@natfriedman 的观点得到了许多人的附和,另一位推特用户 @_msw_直截了当地指出,将专有答应依据受信任的 Apache License 2.0 之上并称其为「开源」(实际上不是真正的开源),这种利用 Apache 软件基金会来之不易的诺言和品牌的做法是不对的

Huggingface榜首开源模型惹争议:魔改Apache协议,达到一定门槛要收钱

又有人问了,这意味着 Falcon-40B 不开源或不是免费软件?@_msw_回复称它既不开源也不是免费软件。

Huggingface榜首开源模型惹争议:魔改Apache协议,达到一定门槛要收钱

吃瓜大众有的赞同并以为 TII Falcon LLM License 底子不是开源答应,但也有的指出 TII Falcon LLM License 本就是「部分」依据开源协议。

Huggingface榜首开源模型惹争议:魔改Apache协议,达到一定门槛要收钱
Huggingface榜首开源模型惹争议:魔改Apache协议,达到一定门槛要收钱

业界从事开源人士发表了观点,以为魔改 Apache 或其他干流开源答应证不叫开源,甚至算不上敞开内核。

Huggingface榜首开源模型惹争议:魔改Apache协议,达到一定门槛要收钱

Falcon-40B 是否开源但又不完全开源呢?机器之心的读者们,你们怎么看?

参阅链接:huggingface.co/tiiuae/falc…