尽头「全网」,生成式AI很快无数据可用。

GPT-4耗尽全宇宙数据!OpenAI接连吃官司,竟因数据太缺了,UC伯克利教授发出警告

近来,闻名UC伯克利计算机科学家Stuart Russell称,ChatGPT和其他AI东西的练习或许很快耗尽「全宇宙的文本」。

换句话说,练习像ChatGPT这样的AI,将因数据量不行而受阻。

GPT-4耗尽全宇宙数据!OpenAI接连吃官司,竟因数据太缺了,UC伯克利教授发出警告

这或许会影响生成式AI开发人员,在未来几年搜集数据,以及练习人工智能的方法。

同时,Russell以为人工智能将在「言语输入,言语输出」的工作中取代人类。

数据不行,拿什么凑?

Russell近来的猜测引起了咱们要点重视。

OpenAI和其他生成式AI开发人员,为练习大型言语模型,开端进行数据搜集。

然而,ChatGPT和其他谈天机器人不可或缺的数据搜集实践,正面临着越来越多的审查。

GPT-4耗尽全宇宙数据!OpenAI接连吃官司,竟因数据太缺了,UC伯克利教授发出警告

其间就包括,未经个人同意状况下构思被运用,以及渠道数据被自由运用感到不满的一些高管。

但Russell的洞察力指向了另一个潜在的弱点:练习这些数据集的文本缺少。

去年11月,MIT等研究人员进行的一项研究估计,机器学习数据集或许会在2026年之前耗尽一切「高质量言语数据」。

GPT-4耗尽全宇宙数据!OpenAI接连吃官司,竟因数据太缺了,UC伯克利教授发出警告

论文地址:arxiv.org/pdf/2211.04…

根据这项研究,「高质量」集中的言语数据来自:书本、新闻文章、科学论文、维基百科和过滤后的网络内容等。

而加持当红炸子鸡ChatGPT背面的模型GPT-4相同接受了大量优质文本的练习。

这些数据来自公共在线的资源(包括数字新闻来历和交际媒体网站)

从交际媒体网站「数据抓取」,才导致马斯克出手限制用户每天可以检查的推文数量。

GPT-4耗尽全宇宙数据!OpenAI接连吃官司,竟因数据太缺了,UC伯克利教授发出警告

Russell标明,尽管许多报道未经证明,但都具体阐明了OpenAI从私家来历购买了文本数据集。尽管这种购买行为或许存在解说,但自然而然的揣度是,没有足够的高质量公共数据了。

一直以来,OpenAI尚未揭露GPT-4背面练习的数据。

而现在,OpenAI需要用「私家数据」来弥补其公共言语数据,以创建该公司迄今最强壮、最先进的人工智能模型 GPT-4。

足见,高质量数据确实不行用。

OpenAI在发布前没有立即回复置评恳求。

OpenAI深陷数据风波

近来,OpenAI遇上了大麻烦,原因都和数据有关。

先是16人匿名申述OpenAI及微软,并提交了长达157页的诉讼,宣称他们运用了私家说话和医疗记录等敏感数据。

GPT-4耗尽全宇宙数据!OpenAI接连吃官司,竟因数据太缺了,UC伯克利教授发出警告

他们的索赔金额高达30亿美元,诉讼中指出,

尽管拟定了购买和运用个人信息的协议,但是OpenAI和微软系统性地从互联网中窃取了3000亿个单词,包括数百万未经同意获取的个人信息。

这其间包括账户信息、姓名、联系方法、电子邮件、支付信息、买卖记录、浏览器数据、交际媒体、谈天数据、cookie等等。

这些信息被嵌入到ChatGPT中,但这些恰恰反映出个人爱好、观点、工作经历甚至家庭照片等。

而负责这次申述的律师事务所Clarkson,此前曾负责过数据走漏和虚假广告等问题的大规模团体诉讼。

GPT-4耗尽全宇宙数据!OpenAI接连吃官司,竟因数据太缺了,UC伯克利教授发出警告

紧接着,这周又有几位全职作者提出,OpenAI未经允许运用了自己的小说练习ChatGPT,构成侵权。

那么是怎么确认运用自己小说练习的呢?

依据便是,ChatGPT可以针对他们的书生成精确的摘要,这就足以阐明这些书被当作数据来练习ChatGPT。

作者Paul Tremblay和Mona Awad标明,「ChatGPT未经许可就从数千本书中复制数据,这侵犯了作者们的版权」。

GPT-4耗尽全宇宙数据!OpenAI接连吃官司,竟因数据太缺了,UC伯克利教授发出警告

申述书中预估,OpenAI的练习数据中至少包括30万本书,其间许多来自侵权网站。

比方,GPT-3练习数据状况披露时,其间就包括2个互联网图书语料库,大概占比为15%。

2位申述的作者以为,这些数据便是来自一些免费的网址,比方Z-Library、Sci-Hub等。

别的2018年,OpenAI曾泄漏练习GPT-1中的数据就包括了7000+本小说。申述的人以为这些书没有取得作者认可就直接运用。

另谋他法?

不得不说,OpenAI运用数据来历一事确实存在许多争议。

今年2月,《华尔街日报》记者Francesco Marconi曾标明,新闻媒体的数据也被用来练习ChatGPT。

Marconi让ChatGPT列了一个清单,竟有20家媒体。

GPT-4耗尽全宇宙数据!OpenAI接连吃官司,竟因数据太缺了,UC伯克利教授发出警告

早在今年5月,Altman在接受采访时曾标明,OpenAI已经有一段时间没有运用付费客户数据来练习大言语模型了。

客户明显不期望咱们练习他们的数据,所以咱们改变了方案,不再这么做。

GPT-4耗尽全宇宙数据!OpenAI接连吃官司,竟因数据太缺了,UC伯克利教授发出警告

其实,OpenAI在3月初,曾悄然更新了服务条款。

Altman说到,现在公司正在开发的新技术,可以运用更少的数据来练习模型。

或许从OpenAI身上受到了启示,谷歌挑选先行堵上这一漏洞。

7月1日,谷歌更新了其隐私政策,现在的政策中明确谷歌有权搜集任何揭露可用的数据,并将其用于其人工智能模型的练习。

GPT-4耗尽全宇宙数据!OpenAI接连吃官司,竟因数据太缺了,UC伯克利教授发出警告

谷歌向一切用户标明,只要是自己可以行揭露渠道取得的内容,都可以拿来练习Bard以及未来的AI。

参考资料:

www.businessinsider.com/ai-could-ru…