GPT-4耗尽全宇宙数据！OpenAI接连吃官司，竟因数据太缺了，UC伯克利教授发出警告-六虎

尽头「全网」，生成式AI很快无数据可用。

近来，闻名UC伯克利计算机科学家Stuart Russell称，ChatGPT和其他AI东西的练习或许很快耗尽「全宇宙的文本」。

换句话说，练习像ChatGPT这样的AI，将因数据量不行而受阻。

这或许会影响生成式AI开发人员，在未来几年搜集数据，以及练习人工智能的方法。

同时，Russell以为人工智能将在「言语输入，言语输出」的工作中取代人类。

数据不行，拿什么凑？

Russell近来的猜测引起了咱们要点重视。

OpenAI和其他生成式AI开发人员，为练习大型言语模型，开端进行数据搜集。

然而，ChatGPT和其他谈天机器人不可或缺的数据搜集实践，正面临着越来越多的审查。

其间就包括，未经个人同意状况下构思被运用，以及渠道数据被自由运用感到不满的一些高管。

但Russell的洞察力指向了另一个潜在的弱点：练习这些数据集的文本缺少。

去年11月，MIT等研究人员进行的一项研究估计，机器学习数据集或许会在2026年之前耗尽一切「高质量言语数据」。

论文地址：arxiv.org/pdf/2211.04…

根据这项研究，「高质量」集中的言语数据来自：书本、新闻文章、科学论文、维基百科和过滤后的网络内容等。

而加持当红炸子鸡ChatGPT背面的模型GPT-4相同接受了大量优质文本的练习。

这些数据来自公共在线的资源（包括数字新闻来历和交际媒体网站）

从交际媒体网站「数据抓取」，才导致马斯克出手限制用户每天可以检查的推文数量。

Russell标明，尽管许多报道未经证明，但都具体阐明了OpenAI从私家来历购买了文本数据集。尽管这种购买行为或许存在解说，但自然而然的揣度是，没有足够的高质量公共数据了。

一直以来，OpenAI尚未揭露GPT-4背面练习的数据。

而现在，OpenAI需要用「私家数据」来弥补其公共言语数据，以创建该公司迄今最强壮、最先进的人工智能模型 GPT-4。

足见，高质量数据确实不行用。

OpenAI在发布前没有立即回复置评恳求。

OpenAI深陷数据风波

近来，OpenAI遇上了大麻烦，原因都和数据有关。

先是16人匿名申述OpenAI及微软，并提交了长达157页的诉讼，宣称他们运用了私家说话和医疗记录等敏感数据。

他们的索赔金额高达30亿美元，诉讼中指出，

尽管拟定了购买和运用个人信息的协议，但是OpenAI和微软系统性地从互联网中窃取了3000亿个单词，包括数百万未经同意获取的个人信息。

这其间包括账户信息、姓名、联系方法、电子邮件、支付信息、买卖记录、浏览器数据、交际媒体、谈天数据、cookie等等。

这些信息被嵌入到ChatGPT中，但这些恰恰反映出个人爱好、观点、工作经历甚至家庭照片等。

而负责这次申述的律师事务所Clarkson，此前曾负责过数据走漏和虚假广告等问题的大规模团体诉讼。

紧接着，这周又有几位全职作者提出，OpenAI未经允许运用了自己的小说练习ChatGPT，构成侵权。

那么是怎么确认运用自己小说练习的呢？

依据便是，ChatGPT可以针对他们的书生成精确的摘要，这就足以阐明这些书被当作数据来练习ChatGPT。

作者Paul Tremblay和Mona Awad标明，「ChatGPT未经许可就从数千本书中复制数据，这侵犯了作者们的版权」。

申述书中预估，OpenAI的练习数据中至少包括30万本书，其间许多来自侵权网站。

比方，GPT-3练习数据状况披露时，其间就包括2个互联网图书语料库，大概占比为15%。

2位申述的作者以为，这些数据便是来自一些免费的网址，比方Z-Library、Sci-Hub等。

别的2018年，OpenAI曾泄漏练习GPT-1中的数据就包括了7000+本小说。申述的人以为这些书没有取得作者认可就直接运用。

另谋他法？

不得不说，OpenAI运用数据来历一事确实存在许多争议。

今年2月，《华尔街日报》记者Francesco Marconi曾标明，新闻媒体的数据也被用来练习ChatGPT。

Marconi让ChatGPT列了一个清单，竟有20家媒体。

早在今年5月，Altman在接受采访时曾标明，OpenAI已经有一段时间没有运用付费客户数据来练习大言语模型了。

客户明显不期望咱们练习他们的数据，所以咱们改变了方案，不再这么做。

其实，OpenAI在3月初，曾悄然更新了服务条款。

Altman说到，现在公司正在开发的新技术，可以运用更少的数据来练习模型。

或许从OpenAI身上受到了启示，谷歌挑选先行堵上这一漏洞。

7月1日，谷歌更新了其隐私政策，现在的政策中明确谷歌有权搜集任何揭露可用的数据，并将其用于其人工智能模型的练习。

谷歌向一切用户标明，只要是自己可以行揭露渠道取得的内容，都可以拿来练习Bard以及未来的AI。

参考资料：

GPT-4耗尽全宇宙数据！OpenAI接连吃官司，竟因数据太缺了，UC伯克利教授发出警告

相关文章

审核被拒 Guideline 5.1.2 怎么办？附带解决攻略

精华笔记：吴恩达 x LangChain 《使用LangChain构建与数据对话的聊天机器人》（下）

从零开始：实现ChatGpt 打字机聊天效果

使用canvas给上传的整张图片添加平铺的水印

作者信息