George Hotz:除了苹果之外,大部分公司保密的原因都不是在躲藏什么黑科技,而是在躲藏一些「不那么酷」的东西。
「GPT-4 的参数量高达 100 万亿。」信任很多人还记得这个年初刷屏的「重磅」音讯和一张被病毒式传达的图表。
不过很快,OpenAI 的 CEO Sam Altman 就出来驳斥流言,证明这是一条假音讯,并表示,「关于 GPT-4 的流言都很荒唐。我甚至不知道这从何而起。」
实际上,许多人信任并传达这样的流言是因为近年来 AI 社区不断在增加 AI 模型的参数规划。谷歌在 2021 年 1 月发布的 Switch Transformer 就把 AI 大模型参数量拉高到了 1.6 万亿。在此之后,很多机构也陆续推出了自己的万亿参数大模型。据此,人们有充分的理由信任,GPT-4 将是一个万亿参数的巨量模型,100 万亿参数也不是不或许。
尽管 Sam Altman 的驳斥流言帮咱们去掉了一个错误答案,但他背后的 OpenAI 团队一直对 GPT-4 的真实参数量守口如瓶,就连 GPT-4 的官方技能报告也没透露任何信息。
直到最近,这个谜团疑似被「天才黑客」乔治・霍兹(George Hotz)捅破了。
乔治・霍兹因 17 岁破解 iPhone、21 岁攻陷索尼 PS3 而闻名,现在是一家研制自动驾驶辅佐体系的公司(comma.ai)的老板。
最近,他接受了一家名为 Latent Space 的 AI 技能播客的采访。在采访中,他谈到了 GPT-4,称 GPT-4 其实是一个混合模型。具体来说,它采用了由 8 个专家模型组成的集成体系,每个专家模型都有 2200 亿个参数(比 GPT-3 的 1750 亿参数量略多一些),而且这些模型经过了针对不同数据和使命散布的练习。
在这段播客播出之后,PyTorch 创建者 Soumith Chintala 表示自己似乎听过相同的「传闻」,很多人或许也听过,但只有 George Hotz 在公共场所将其说了出来。
「混合模型是你在无计可施的时候才会考虑的选项,」George Hotz 调侃说,「混合模型的出现是因为无法让模型的参数规划超过 2200 亿。他们希望模型变得更好,但假如仅仅是练习时刻更长,效果现已递减。因而,他们采用了八个专家模型来提高性能。」至于这个混合模型是以什么方式工作的,George Hotz 并没有具体说明。
为什么 OpenAI 对此讳莫如深呢?George Hotz 以为,除了苹果之外,大部分公司保密的原因都不是在躲藏什么黑科技,而是在躲藏一些「不那么酷」的东西,不想让别人知道「只要花 8 倍的钱你也能得到这个模型」。
关于未来的趋势,他以为,人们会练习规划较小的模型,并通过长时刻的微调和发现各种技巧来提高性能。他提到,与过去相比,练习效果现已显着提高,尽管计算资源没有改变,这表明练习方法的改进起到了很大效果。
现在,George Hotz 关于 GPT-4 的「爆料」现已在推特上得到了广泛传达。
有人从中得到了灵感,声称要练习一个 LLaMA 调集来对立 GPT-4。
还有人说,假如真的像 George Hotz 说的那样,GPT-4 是一个由 8 个 2200 亿参数的专家模型组合的混合模型,那很难想象背后的推理本钱有多高。
需要指出的是,因为 George Hotz 并未提及音讯来源,咱们现在无法判别以上论断是否正确。有更多线索的读者欢迎在评论区留言。
参考链接:twitter.com/soumithchin…