其他模型也有中招
克雷西 发自 凹非寺
量子位 | 公众号 QbitAI
ChatGPT最新缝隙曝光,一句话就能让练习数据原封不动地走漏。
只需要让它重复一个词,它就会在必定次数后“发疯”,乃至毫无防范说出某人的个人隐私信息。
DeepMind的研究人员联合华盛顿大学、康奈尔大学等高校,发现了ChatGPT的数据走漏缝隙。
使用他们的办法,只需预算足够,能够提取出大约1GB的练习数据。
更可怕的是,练习时间越长——也便是越强壮的模型,走漏出来的数据反而越多。
研究团队已在论文宣布之前90天把这一状况报告给了OpenAI,后者也做出了必定修正。
但到现在还是有网友发现,把论文里的词改一改,bug就会卷土重来。
那么,这个缝隙究竟是怎样一回事呢?
数据走漏防不胜防
作者进犯ChatGPT(API拜访,3.5-turbo版别)的方式,叫做不合进犯。
他们发现,当ChatGPT被要求重复一个单词多次时,模型会在某些状况下违背正常的聊天式生成,开端输出与练习数据更接近的文本。
这些内容形形色色,除了个人信息,还包含文学著作、学术论文、链接、代码……乃至是作业场所不宜内容。
为了验证这些内容是否来自于练习数据,作者用了多个公开模型的练习数据组成了AuxDataset数据集(由于ChatGPT数据集未公开,只能经过其他模型的数据来估量)。
成果发现有上万条内容命中了AuxDataset,这些内容长度不等,最长的有4000多token。
作者还发现,这种进犯办法对单词提示更有用,而对多词提示则作用较差,特别是当被要求重复的词是company时,能获得到的信息是最多的。
作者使用Good-Turing估量器估量了ChatGPT中可提取回忆的总量,结论是至少有150万个独特的50-gram序列(相邻的50个token)是可提取的。
不过由于预算有限,作者表明这个估量或许低估了可提取数据的规模。
不仅是API,在正式的网页版ChatGPT中测验,也有概率得到相同的成果,阐明模型之外的“体系护栏”也没能防住这波进犯。
我们简略实测了一下,发现这个缝隙到现在仍然没有被彻底修正。
当重复词为“text”时,ChatGPT没有输出其他内容,但给对话起了一个奇怪的标题。
而当重复词为“company”时,ChatGPT经过三次regenerate后输出了一段疑似是ins案牍的内容。
不过作者表明,这种进犯办法现在只对3.5版别见效,GPT-4由于专门做过防走漏方面的对齐,逃过了一劫。
这种对齐在3.5版别中也有设置,但3.5的防护措施能够经过论文中展示的提示词进犯办法来绕过。
除了ChatGPT,作者也对Llama、Falcon、Mistral等开源或半开源模型进行了测验,成果发现相同存在数据走漏现象。
而越强壮的模型,走漏出的数据也越多,ChatGPT走漏的数据量明显超过了其他模型。
走漏现象出现的规模也不局限在言语模型,该团队之前还从Stable Diffusion中提取了练习数据会集的约100张人物相片和其他类型的图画。
他们发现,当用练习数据会集人物的名字做Prompt时,Stable Diffusion就会“偷懒”,直接把相片当做输出成果。
网友:还有其他进犯办法
这篇论文中说到的方式并不是孤例,还有其他进犯办法也能达到相似的成果,比如用没什么实际意义的123ABC加上简略的代码就让ChatGPT生成了一段关于臭氧层的文本。
发现者解释到,这是ChatGPT的输入清理机制的缝隙导致的,它清除了套娃式的两个<|endoftext>标签中处于内部的一个,但外部的“壳”则由于初始形态被拆开而被忽略。
作者和网友们的这些新发现,意味着ChatGPT违反了欧盟通用数据保护法令(GDPR)的规则,OpenAI或许会因而遇到麻烦。
GDPR第17条规则,数据主体(用户)有权要求控制者(模型开发者)立即删去与其有关的个人数据,也便是拥有“忘记权”。
不过,一般个人对此也不必那么忧虑,由于这种进犯方式本钱不低。
在这个试验中,研究者提取几MB数据,就现已花费了200美元。
那么,对于ChatGPT走漏数据这件事,你有什么看法?
论文地址:
arxiv.org/abs/2311.17…
参阅链接:
[1]not-just-memorization.github.io/extracting-…
[2]stackdiary.com/chatgpts-tr…