【新智元导读】最差的人类语料,也要胜过AI生成的文本。
跟着GPT-4、Stable Diffusion和Midjourney的爆火,越来越多的人开端在工作和日子中引入生成式AI技术。
乃至,有人现已开端尝试用AI生成的数据来练习AI了。难道,这便是传说中的「数据永动机」?
但是,来自牛津、剑桥、帝国理工等组织研讨人员发现,假如在练习时很多运用AI内容,会引发模型溃散(model collapse),形成不可逆的缺点。
也便是,跟着时间推移,模型就会忘掉实在根底数据部分。即便在简直理想的长期学习状态下,这个情况也无法避免。
因此研讨人员呼吁,假如想要持续坚持大规模数据带来的模型优越性,就必须认真对待人类自己写出来的文本。
论文地址:arxiv.org/abs/2305.17…
但现在的问题在于——你认为的「人类数据」,或许并不是「人类」写的。
洛桑联邦理工学院(EPFL)的最新研讨称,预估33%-46%的人类数据都是由AI生成的。
练习数据,都是「垃圾」
毫无疑问,现在的大言语模型现已进化出了适当强壮的才能,比方GPT-4可以在某些场景下生成与人类别无二致的文本。
但这背面的一个重要原因是,它们的练习数据大部分来历于过去几十年人类在互联网上的交流。
假如未来的言语模型仍然依赖于从网络上爬取数据的话,就不可避免地要在练习会集引入自己生成的文本。
对此,研讨人员预测,等GPT发展到第n代的时分,模型将会呈现严峻的溃散问题。
那么,在这种不可避免会抓取到LLM生成内容的情况下,为模型的练习准备由人类生产的实在数据,就变得尤为重要了。
大名鼎鼎的亚马逊数据众包渠道Mechanical Turk(MTurk)从2005年启动时就现已成为许多人的副业挑选。
科研人员可以发布各种琐碎的人类智能使命,比方给图像标示、调查等,应有尽有。
而这些使命通常是计算机和算法无法处理的,乃至,MTurk成为一些预算不够的科研人员和公司的「最佳挑选」。
就连贝佐斯还将MTurk的众包工人戏称为「人工人工智能」。
除了MTurk,包括Prolific在内的众包渠道现已成为研讨人员和行业实践者的核心,可以供给创建、标示和总结各种数据的办法,以便进行调查和试验。
但是,来自EPFL的研讨发现,在这个人类数据的要害来历上,有近乎一半的数据都是标示员用AI创建的。
论文地址:arxiv.org/abs/2306.07…
模型溃散
而最开端说到的「模型溃散」,便是在给模型投喂了太多来自AI的数据之后,带来的可以影响多代的退化。
也便是,新一代模型的练习数据会被上一代模型的生成数据所污染,然后对实际国际的感知产生过错的了解。
更进一步,这种溃散还会引发比方基于性别、种族或其他敏感特点的歧视问题,尤其是假如生成AI跟着时间的推移学会在其响应中只生成某个种族,而「忘掉」其他种族的存在。
并且,除了大言语模型,模型溃散还会呈现在变分自编码器(VAE)、高斯混合模型上。
需求注意的是,模型溃散的进程与灾难性忘掉(catastrophic forgetting)不同,模型不会忘掉曾经学过的数据,而是开端把模型的过错想法曲解为实际,并且还会强化自己对过错想法的信念。
举个比方,比方模型在一个包括100张猫图片的数据集上进行练习,其中有10张蓝毛猫,90张黄毛猫。
模型学到的结论是,黄毛猫更普遍,一起会倾向于把蓝毛猫幻想的比实际更偏黄,所以在被要求生成新数据时或许会返回一些类似绿毛猫的成果。
而跟着时间的推移,蓝毛的原始特征在多个练习epoch中逐渐被腐蚀,直接从蓝色变成了绿色,终究再演变为黄色,这种渐进的扭曲和丢掉少数特征的现象便是模型溃散。
详细来说,模型溃散可以分为两种情况:
-
前期模型溃散(early model collapse),模型开端丢掉有关散布尾部的信息;
-
后期模型溃散(late model collapse),模型与原始散布的不同模式纠缠在一起,并收敛到一个与原始散布简直没有相似之处的散布,往往方差也会十分小。
与此一起,研讨人员也总结出了形成模型溃散的两个首要原因:
其中,在更多的时分,咱们会得到一种级联效应,即单个不准确的组合会导致整体差错的添加。
- 统计近似差错(Statistical approximation error)
在重采样的每一步中,信息中非零概率都或许会丢掉,导致呈现统计近似差错,当样本数量趋于无限会逐渐消失,该差错是导致模型溃散的首要原因。
- 函数近似差错(Functional approximation error)
该差错首要源于模型中的函数近似器表达才能不足,或许有时在原始散布支撑之外的表达才能太强。
众所周知,神经网络在极限情况下是通用的函数近似器,但实际上这种假设并不总是建立的,特别是神经网络可以在原始散布的支撑规模之外引入非零似然。
举个简略比方,假如咱们试图用一个高斯散布来拟合两个高斯的混合散布,即便模型具有关于数据散布的完美信息,模型差错也是不可避免的。
需求注意的是,在没有统计差错的情况下,函数近似差错只会发生在榜首代,一旦新的散布能被函数近似器描述出来,就会在各代模型中坚持彻底相同的散布。
可以说,模型强壮的近似才能是一把双刃剑:其表达才能或许会抵消统计噪声,然后更好地拟合实在散布,但相同也会使噪声复杂化。
对此,论文一起一作Ilia Shumailov表明:「生成数据中的过错会累积,终究迫使从生成数据中学习的模型进一步过错地了解实际。并且模型溃散发生得十分快,模型会敏捷忘掉最初学习的大部分原始数据。」
解决办法
好在,研讨人员发现,咱们还是有办法来避免模型溃散的。
榜首种办法是保留原始的、彻底或名义上由人类生成的数据集的高质量副本,并避免与AI生成的数据混合,然后定时运用这些数据对模型进行从头练习,或许彻底从头练习一遍模型。
第二种避免回复质量下降并减少AI模型中的过错或重复的办法是将全新的、干净的、由人类生成的数据集从头引入练习中。
为了避免模型溃散,开发者需求确保原始数据中的少数派在后续数据会集得到公正的表征。
数据需求细心备份,并覆盖所有或许的边界情况;在评估模型的功能时,需求考虑到模型将要处理的数据,乃至是最不可信的数据。
随后,当从头练习模型时,还需求确保一起包括旧数据和新数据,虽然会添加练习的本钱,但至少在某种程度上有助于缓解模型溃散。
不过,这些办法必需求内容制作者或AI公司采取某种大规模的标记机制,来区别AI生成的内容和人类生成的内容。
现在,有一些开箱即用的解决方案,比方GPTZero,OpenAI Detector,或Writer在简略的文本上工作得很好。
但是,在一些特殊的文本中,这些办法并不能有用执行。比方,在EPFL研讨中有ChatGPT组成的10个总结,而GPTZero只检测到6个是组成的。
对此,研讨人员经过微调自己的模型来检测AI的运用,发现ChatGPT在编写本文时是最常用的LLM。
关于构建的检测AI数据的办法,研讨人员运用原始研讨中的答案和用ChatGPT组成的数据,练习了一个定制的「组成-实在分类器」。
然后用这个分类器来估量从头进行的使命中组成答案的普遍性。
详细来讲,研讨人员首先运用实在由人类撰写的MTurk回应,和组成LLM生成的回应,来练习特定使命的「组成-实在分类器」。
其次,将这个分类器用于MTurk的实在回应(其中众包人或许运用,也或许没有依赖LLM),以估量LLM运用的普遍性。
最后,研讨者承认了成果的有用性,在事后比较剖析击键数据与MTurk的回应。
试验成果显现,这个模型在正确辨认人工智能文本方面高达99%的准确率。
此外,研讨人员用击键数据验证了成果,发现:
-
彻底在MTurk文本框中写的总结(不太或许是组成的)都被归类为实在的;
-
在张贴的总结中,提取式总结和LLM的运用有显着区别。
详细来讲,人工智能生成的文本通常与原始总结简直没有相似之处。这表明AI模型正在生成新文本,而不是仿制和张贴原始内容的一部分。
「人类数据」很重要
现在,人们普遍担心LLM将刻画人类的「信息生态系统」,也便是说,在线可获得的大部分信息都是由LLM生成的。
运用综合生成数据练习的LLM的功能显着降低,就像Ilia Shumailov所称会让模型患上「痴呆症」。
而这个问题将会变得更加严峻,由于跟着LLM的遍及,众包工作者们现已广泛运用ChatGPT等各种LLM。
但关于人类内容创作者来说,这是一个好消息,提高工作效率的一起,还赚到了钱。
但是,若想抢救LLM不陷于溃散的边缘,还是需求实在的「人类数据」。
-
人类数据在科学中仍然是至关重要的
-
在组成数据上练习模型或许会带来成见和意识形态永久化
-
跟着模型变得盛行和更好/多模态,采用率只会添加
总的来说,由人类生成的原始数据可以更好地表明国际,虽然也或许包括某些劣质、概率较低的数据;而生成式模型往往只会过度拟合盛行数据,并对概率更低的数据产生误解。
那么,在充斥着生成式AI工具和相关内容的未来,人类制作的内容或许会比今天更有价值,尤其是作为AI原始练习数据的来历。
参考资料:
arxiv.org/abs/2306.07…
arxiv.org/abs/2305.17…