避重就轻的解说,仍是没能取得咱们的认可。

几天前,一篇名为《Exploring the MIT Mathematics and EECS Curriculum Using Large Language Models》的论文经历了一场言论风波。

GPT-4得不到MIT学位,MIT研究团队回应「作弊」,但网友不买账

论文地址:arxiv.org/pdf/2306.08…

开始,研讨团队从 MIT 的数学、电气工程和计算机科学 (EECS) 专业的课程问题、期中考试和期末考试中,整理出了一个包括 4550 个问题和处理方案的综合数据集,并让各种大言语模型去完结这个数据集的题目,得出了「GPT-4 几乎满分经过 MIT EECS 和数学本科考试」的定论。

这一结果很快被人指出不够谨慎,还给出了多项依据和详尽的分析,表明数据集本身就有问题,用 GPT-4 自动打分的点评机制也很有问题:

GPT-4得不到MIT学位,MIT研究团队回应「作弊」,但网友不买账

「咱们的批判主要是针对这项研讨的方法和谨慎性,而不是针对其内容。咱们对大型言语模型实践处理麻省理工学院课程的才能没有任何意见,仅仅以为本文未能以科学谨慎的方式证明这一点。」

面临扑面而来的质疑,研讨团队在接下来的一周里却没有进行任何揭露回应,没有供认,也没有道歉。

但在昨日,人们等到了来自几位教授(也是论文作者)署名的官方通报:

6 月 24 日,Armando Solar-Lezama(MIT EECS 教授和 CSAIL 首席运营官 / 副主任)、Tonio Buonassisi(MIT 机械工程教授)和 Yoon Kim(MIT EECS 和 CSAIL 助理教授)就该论文情况宣布了揭露声明。

GPT-4得不到MIT学位,MIT研究团队回应「作弊」,但网友不买账

声明内容如下:

6 月 15 日,Iddo Drori 在 arXiv 上发布了一篇与麻省理工学院几十门课程的考试和作业数据集相关的研讨论文,他这样做没有得到其他合著者的赞同,虽然现已被奉告在宣布前应该纠正的问题。咱们中的一个人在周末旅行后,于 6 月 18 日星期天才知道这个帖子。

在处理这件事的过程中,咱们发现,与 Drori 向咱们和为该项目搜集数据的学生所传达的信息相反,Drori 并没有得到所有导师的答应来搜集构成论文主题的数据集的作业和考试题。其中一些涉及课程的导师,在论文出现在交际媒体上和 Drori 未经答应在网上发布数据样本时,才知道这个数据集的存在且其中包括了自己的课程材料。

这些都是正在经过机构渠道处理的严重问题,所以咱们不愿意揭露宣布这样的声明,但咱们觉得有必要解说为什么这篇论文不该该被宣布而必须被撤回。咱们现已要求 Drori 从 arXiv 撤回这篇论文,并且直接联系了 arXiv 解说了这个情况。

咱们想着重的是,这篇论文中的所有学生作者都非常努力地工作,如果数据是在赞同的情况下搜集的,这本来是一篇非常风趣和宝贵的论文。现已宣布的工作中出现的问题并不是学生的错。

而且,GPT-4 不能取得麻省理工学院的学位。

这样一份查询声明,真的足够了吗?回想一周前三位质疑者提交的分析,数据集被污染、手动检查的结果与论文所说的「几乎满分经过」相差甚远,这至少意味着论文内容应该被重新检查。

明显,并不是所有人都对查询结果满足,有人表明这是避重就轻的说法,仅仅重视他们不该该运用这些数据的事实,而不提伪造结果的过错。

「所以这三位麻省理工学院的教授以为,未经赞同运用数据是论文的仅有问题。」

GPT-4得不到MIT学位,MIT研究团队回应「作弊」,但网友不买账

针对「这本来是一篇非常风趣和宝贵的论文」的说法,更多人点了反对:「让 GPT-4 给自己生成的答案打分,这便是风趣和宝贵吗?」

GPT-4得不到MIT学位,MIT研究团队回应「作弊」,但网友不买账

另外,有人发现 Iddo Drori 的个人主页现已更新,删掉了「MIT 客座教授」的 title。而且依据领英主页的信息,他将在这个月完毕自己的 MIT 拜访之旅。

GPT-4得不到MIT学位,MIT研究团队回应「作弊」,但网友不买账

GPT-4得不到MIT学位,MIT研究团队回应「作弊」,但网友不买账

「一些教授决议让一位客座讲师成为替罪羊,并企图将每个人的注意力从方法论转移到数据隐私问题上,却没有批判这篇论文。这是多么典型的学术政治问题。」

GPT-4得不到MIT学位,MIT研究团队回应「作弊」,但网友不买账

正如三位质疑者在博客中所写的那样:「这篇论文道出了最近人工智能范畴研讨的一个更大趋势。随着该范畴的进展越来越快,新发现的时间节奏似乎在缩短,这往往伴随着捷径。一个特别令人担忧的趋势是运用像 GPT-4 这样根据言语的模型来评价一个模型的准确性的技能。」

对于此事,你怎么看?