机器之心报道

机器之心编辑部

这就是 GPT 的「笼统」,和人类的笼统不太相同。

OpenAI用GPT-4解释了GPT-2三十万个神经元:智慧原来是这个样子

尽管 ChatGPT 好像让人类正在接近从头发明才智,但迄今为止,咱们从来就没有彻底了解智能是什么,不论天然的仍是人工的。

知道才智的原理显然很有必要,如何了解大言语模型的智力?OpenAI 给出的处理方案是:问问 GPT-4 是怎样说的。

5 月 9 日,OpenAI 发布了最新研讨,其运用 GPT-4 主动进行大言语模型中神经元行为的解说,获得了许多风趣的成果。

OpenAI用GPT-4解释了GPT-2三十万个神经元:智慧原来是这个样子

可解说性研讨的一种简略办法是首要了解 AI 模型各个组件(神经元和注意力头)在做什么。传统的办法是需求人类手动检查神经元,以确定它们代表数据的哪些特征。这个进程很难扩展,将它应用于具有数百或数千亿个参数的神经网络的本钱过于昂扬。

所以 OpenAI 提出了一种主动化办法 —— 运用 GPT-4 来生成神经元行为的天然言语解说并对其进行评分,并将其应用于另一种言语模型中的神经元 —— 此处他们挑选了 GPT-2 为试验样本,并公开了这些 GPT-2 神经元解说和分数的数据集。

OpenAI用GPT-4解释了GPT-2三十万个神经元:智慧原来是这个样子

  • 论文地址:openaipublic.blob.core.windows.net/neuron-expl…

  • GPT-2 神经元图:openaipublic.blob.core.windows.net/neuron-expl…

  • 代码与数据集:github.com/openai/auto…

这项技能让人们可以运用 GPT-4 来定义和主动丈量 AI 模型的可解说性这个定量概念:它用来衡量言语模型运用天然言语压缩和重建神经元激活的能力。由于定量的特性,咱们现在可以衡量了解神经网络计算方针的进展了。

OpenAI 表明,运用他们建立的基准,用 AI 解说 AI 的分数能达到接近于人类的水平。

OpenAI用GPT-4解释了GPT-2三十万个神经元:智慧原来是这个样子

OpenAI 联合创始人 Greg Brockman 也表明,咱们迈出了运用 AI 进行主动化对齐研讨的重要一步。

具体办法

运用 AI 解说 AI 的办法包括在每个神经元上运转三个进程:

进程一:用 GPT-4 生成解说

OpenAI用GPT-4解释了GPT-2三十万个神经元:智慧原来是这个样子

给定一个 GPT-2 神经元,经过向 GPT-4 展现相关文本序列和激活来生成对其行为的解说。

模型生成的解说:对电影、角色和娱乐的引用。

进程二:运用 GPT-4 进行模仿

再次运用 GPT-4,模仿被解说的神经元会做什么。

OpenAI用GPT-4解释了GPT-2三十万个神经元:智慧原来是这个样子

进程三:比照

依据模仿激活与实在激活的匹配程度对解说进行评分 —— 在这个比如上,GPT-4 的得分为 0.34。

OpenAI用GPT-4解释了GPT-2三十万个神经元:智慧原来是这个样子

OpenAI用GPT-4解释了GPT-2三十万个神经元:智慧原来是这个样子

**
**

主要发现

运用自己的评分办法,OpenAI 开始衡量他们的技能对网络不同部分的作用,并尝试针对现在解说不清楚的部分改进技能。例如,他们的技能对较大的模型作用欠安,可能是由于后面的层更难解说。

OpenAI用GPT-4解释了GPT-2三十万个神经元:智慧原来是这个样子

OpenAI 表明,尽管他们的绝大多数解说得分不高,但他们相信自己现在可以运用 ML 技能来进一步进步他们发生解说的能力。例如,他们发现以下方式有助于进步分数:

  • 迭代解说。他们可以经过让 GPT-4 想出可能的反例,然后依据其激活情况修改解说来进步分数。

  • 运用更大的模型来进行解说。跟着解说模型(explainer model)能力的提升,平均得分也会上升。但是,即使是 GPT-4 给出的解说也比人类差,这表明还有改进的余地。

  • 改变被解说模型(explained model)的架构。用不同的激活函数练习模型进步了解说分数。

OpenAI 表明,他们正在将 GPT-4 编写的对 GPT-2 中的一切 307,200 个神经元的解说的数据集和可视化东西开源。一起,他们还供给了运用 OpenAI API 上公开可用的模型进行解说和评分的代码。他们期望研讨界可以开宣布新的技能来生成更高分的解说,一起开宣布更好的东西来经过解说探究 GPT-2。

他们发现,有超越 1000 个神经元的解说得分至少为 0.8 分,这意味着依据 GPT-4,它们占有了神经元的大部分尖端激活行为。这些得到很好解说的神经元中的大多数都不是很风趣。但是,他们也发现了许多风趣但 GPT-4 并不了解的神经元。OpenAI 期望跟着解说的改进,他们可能会敏捷发现对模型计算的风趣的定性了解。

以下是一些不同层神经元被激活的比如,更高的层更笼统:

OpenAI用GPT-4解释了GPT-2三十万个神经元:智慧原来是这个样子

OpenAI用GPT-4解释了GPT-2三十万个神经元:智慧原来是这个样子

OpenAI用GPT-4解释了GPT-2三十万个神经元:智慧原来是这个样子

OpenAI用GPT-4解释了GPT-2三十万个神经元:智慧原来是这个样子

看起来,GPT 了解的概念和人类不太相同?

OpenAI 未来作业

现在,该办法还存在一些局限性,OpenAI 期望在未来的作业中可以处理这些问题:

  • 该办法专注于简略的天然言语解说,但神经元可能具有非常复杂的行为,因而用简洁地言语无法描绘;

  • OpenAI 期望终究主动找到并解说整个神经回路实现复杂的行为,神经元和注意力头一起作业。现在的办法仅仅将神经元的行为解说为原始文本输入的函数,而没有说明其下流影响。例如,一个在周期(period)上激活的神经元可以指示下一个单词应该以大写字母开头,或许添加句子计数器;

  • OpenAI 解说了神经元的这种行为,却没有企图解说发生这种行为的机制。这意味着即使是得高分的解说在非分布(out-of-distribution)文本上也可能表现很差,由于它们仅仅描绘了一种相关性;

  • 整个进程算力消耗极大。

终究,OpenAI 期望运用模型来形成、测试和迭代彻底一般的假定,就像可解说性研讨人员所做的那样。此外,OpenAI 还期望将其最大的模型解说为一种在部署前后检测对齐和安全问题的办法。但是,在这之前,还有很长的路要走。

参阅内容:

openai.com/research/la…

news.ycombinator.com/item?id=358…

www.reddit.com/r/MachineLe…

techcrunch.com/2023/05/09/…