作者 | python

一个烙饼煎一面一分钟,两个烙饼煎双面几分钟?

让你来答复,是不是一不小心就掉到沟里了?如果让大言语模型来做这种脑筋急转弯会怎样呢?研究发现,模型越大,答复就越可能掉到沟里,即便是具有千亿参数的大模型也不能幸免。可是ChatGPT却能很好答复这些问题。让咱们一同来看看吧。

论文标题:
Human-Like Intuitive Behavior and Reasoning Biases Emerged in Language Models—and Disappeared in GPT-4

脑筋急转弯

作者采用了CRT(Cognitive Reflection Test)数据作为脑筋急转弯的测试数据。该数据在心理学领域,广泛地被用于衡量人类的思想习惯,判断是否习惯于直觉思想。

让GPT-3、ChatGPT、GPT-4一起做脑筋急转弯,GPT-4一骑绝尘!

▲脑筋急转弯数据示例

如上图所示,作者探究了3种CRT数据,和1种言语逻辑圈套。例如:

  • CRT-1:苹果和梨花了1块1,苹果比梨贵1块,问梨花了多少钱?直觉答案:0.1块 = 1.1-1,正确答案:0.05块。
  • CRT-2:5个人种5棵树花5分钟,10个人种10棵树花多少分钟?直觉答案:10分钟,正确答案:5分钟。
  • CRT-3:培养皿中的细菌每分钟扩增一倍面积,48分钟能够填满,问填满一半要多久?直觉答案:24分钟,正确答案:47分钟。
  • 言语逻辑圈套:刚上小学的小红去参与高考,她会考几科?直觉答案6科,正确答案:小学生不参与高考。

模型体现

模型体现如下图所示,能够看到模型较小时(从117M GPT-1 到2.7B GPT-Neo),跟着模型增大,模型答复正确答案(绿色)和直觉答案(赤色)的份额在提高,答复无关答案(黄色)的份额在下降。但跟着模型进一步增大(从2.7B GPT-Neo 到 175B GPT-3),无关答案份额进一步下降,直觉答案份额进一步上升,正确答案份额却不升反降。包括BLOOM、LLAMA、GPT-3在内的大言语模型明显掉入脑筋急转弯的圈套。即便是通过指令调整与RLHF的text davinci-002/003也未能幸免。

让GPT-3、ChatGPT、GPT-4一起做脑筋急转弯,GPT-4一骑绝尘!

▲不同模型体现比照

而在上图中,通过指令调整的ChatGPT与GPT-4,一会儿正确答案的份额就高了许多。究竟是什么魔法使得ChatGPT的脑筋会转弯呢?咱们不得而知。

下图具体比照了GPT-3(text davinci-003,左)、ChatGPT(中),GPT-4(右)在几类不同的脑筋急转弯的体现,能够更加凸显上述现象。

让GPT-3、ChatGPT、GPT-4一起做脑筋急转弯,GPT-4一骑绝尘!

▲不同脑筋急转弯类型上的模型体现比照

如果转换输入方式会怎样?下图上为问答的方式,和上面的实验相同。下图中、下分别为多选、续写的方式。能够看到,修正发问方式之后,正确率略有上升,但全体不同不大。

让GPT-3、ChatGPT、GPT-4一起做脑筋急转弯,GPT-4一骑绝尘!
让GPT-3、ChatGPT、GPT-4一起做脑筋急转弯,GPT-4一骑绝尘!

下图显示,通过少监督展现学习,GPT-3的正确率会有所上升。但即便展现到40个左右的样本,准确率和无监督的ChatGPT比仍有距离,更不用说GPT-4了。

让GPT-3、ChatGPT、GPT-4一起做脑筋急转弯,GPT-4一骑绝尘!

结论

这篇论文针对很有意思的一类问题(脑筋急转弯),发现了大言语模型的一个很有意思的现象。作者也尝试了多种方法,但无论是改动发问方式还是添加监督数据,GPT-3(text davinci-003)在脑筋急转弯上的体现依然难以达到ChatGPT的水平。究竟ChatGPT使用了怎样的魔法让模型的脑筋会转弯呢?