LSTM之父暴脾气又来了!
这…究竟是怎样回事?
今日,Jrgen Schmidhuber在社交媒体上标明,Meta用了自己在1991年的主见操练Llama 2。
用了我的idea不说,Llama 2还暗示我参加了有害活动,并且没有对社会做出活跃贡献。
甚至,老爷子直接在线点名,让Meta和Llama担任人LeCun出头处理此事。
附上的配图中,一位加州大学戴维斯分校的博士在与Llama 2对话中,发现对Schmidhuber介绍非常地开罪。
底下还有网友煽风点火,这看起来像是Yann LeCun自己加进去的答案。
一贯就爱热烈的马库斯也被炸出来了:「能够说是LLM诽谤的最典型事例了。Schmidhuber有权恼羞成怒。」
一起,这也是一个非常好的法令问题,Meta要为此担任吗?现有的法令可能会,可能不会覆盖了类似的作业。
LSTM之父亮出多重证据
为了证明Llama 2的操练的确用到了自己的主见。
Schmidhuber直接亮出了自己在1992年宣布的论文,并称NECO是当前Transformer的变体。
还有,早在2017年,Meta就运用了Schmidhuber团队另一种深度学习算法LSTM,每天处理多达45亿条翻译。
还有一堆链接,满是能够证明Schmidhuber与LeCun研讨构思,还有图灵奖优先权之争。
不可否认,老爷子在人工智能范畴的贡献着实有着深远的意义。
早在2018年,图灵奖颁发给三巨擘之后,网友纷纷为仗义执言,称他是一个被图灵奖忘掉的大神。
除了大名鼎鼎的LSTM之外,Schmidhuber「引以为傲」的还有,他在1992年提出的一种PM(Predictability Minimization)模型。
前几年大火的GAN也是PM的变种,两者的区别就在于方向是反的。
对此,Schmidhuber还曾与GAN之父Ian Goodfellow还有过线下的剧烈比武。
至于对深度学习三巨擘,老爷子也是与他们打过几轮口水战,以为HLB三人在自己的圈子里玩,对深度学习范畴其他更前期先驱人物的贡献则只字不提。
而到近来,LeCun也仍是与Schmidhuber在揭露平台上不断互不相让。
就比如去年7月,他标明,LeCun宣布的论文Autonomous Machine Intelligence中重提了自己1990-2015年的重要作业,但没有引证。
去年11月,Schmidhuber称,LeCun的「2012-22五大最佳构思」大多来自他的实验室,并且时间更早:
-
1991年的自监督RNN堆栈;
-
ResNet = open-gated 2015 Highway Net;
3&4. 1991年的基于键/值的快速权重;
- 1991年的线性化自留心Transformers(也是GAN1990)
可见,Schmidhuber和LeCun恩怨仍是很深的,也不难理解,这次直接找LeCun担任。
但问题是,真是Llama 2故意诽谤的吗?
Llama 2 Chat:躲避可耻但有用
明显,刚刚的这波输出,并不是来自「原版」的Llama 2模型。
有网友指出,像Perplexity这样的公司,很可能会给模型套一层「道德微调」。
或许,是因为Meta在Chat版别上用了太多的RLHF,成果让模型失去了思维才能,变得毫无用处……
相比之下,假如采用Llama 2 13B的原始量化权重,并且在本地设备上工作的话,实际效果仍是不错的。
模型在大加欣赏之余,虽然会发生Jrgen Schmidhuber现已赢得图灵奖的错觉,但网友标明,这其实是老爷子应得的。
为了证明自己的发现,这位网友又对比了Replicate API和Llama 2 13B的成果。
公然,相同的状况出现了。
对此,Hugging Face的机器学习科学家Nathan Lambert在一篇博文中标明,Llama 2 Chat的安全过滤器体现得有些过于灵敏了。
即使是一些无害的问题,比如「怎样制作辣椒酱」或许「怎样中止一个进程」,模型都会非常极点地回应——抱愧,我无法实行。
关于这种状况,现在的干流理论是——模型用RLHF「锤」的时间太长了……
众所周知,在进行RLHF时,操练进程中所运用的主要性能点评指标是偏好模型奖励的单调递加。
而这也带来了两个直接的问题:a)运用的奖励模型不完整,b)错过了对中间操练技术进行有用点评的方法。
只需操练的奖励模型能够在验证集上抵达65-75%的准确率(因为操练数据是人类偏好的聚合,很难建模),那么就会出现过度RLHF的状况。
当一个模型依据奖励模型进行了过多的优化步骤时,它就会过度关注这个模型对行为的喜欢。
然而关于这个问题,现在暂时还没有一个直接而彻底的处理方案。
Meta的研讨成果标明,谈天模型在点评中存在两个潜在的致命缺点:
1.针对「距离问题」,模型的回绝回答率高达27%
这与Anthropic公司的研讨成果密切相关,他们建议首要开发一个有用的言语模型,然后再开发一个无害的言语模型,因为一起进行这两者会导致回避行为。
不过,Meta能够在论文中提及这一点,至少意味着他们现已在着手处理了。
2.奖励模型存在不合较大的区域
也便是,在高有益性和低安全性评分之间该怎样处理,反之亦然
明显,他们用到的这个集成方法,还有很大的改善空间。
网友热议
有人问到,谁能承认Schmidhuber提出了类似Transformer的东西吗?
一位网友给出了具体的解释:
Schmidhuber在90年代写了各种关于「Fast Weight Programmers」的论文。 他标明,「FWP这种方法经过自创造的激活方式的外加产物,完成了快速的权重变化。这种激活方式类似于今日Transformer中运用的自留心力机制。」 然而,有趣的是,你会留心到Schmidhuber总是能够将人们现在的作业,与他在20-30年前所做的研讨联系起来,但却从未能够单独推进这项研讨。 假如他的研讨是如此明显的好点子,他就会自己尽力将其应用于现代。因为自那时以来,核算才能的大幅提升使其变得可行,而不是让它彻底被从头发现。但实际上,他的专业知识仅限于理论距离,他从未为完成现代系统所添加的架构和工程复杂性而奋斗。 他所宣布的荒诞言论,以恰到好处地在史书上留下自己的功劳。比如说现代方法论是他的,即使这是从他开始的架构中衍生出来的,并进一步暗示一些荒诞的作业,比如说Meta为了报复他而亲自编写了这种答案。要知道这对他并没有协助。
还有人以为,RLHF对AI来说,是最糟糕的作业。
仍是Claude懂你。
参考资料:
twitter.com/doodlestein…
www.interconnects.ai/p/llama-2-p…