尽头「全网」,生成式AI很快无数据可用。
近来,闻名UC伯克利计算机科学家Stuart Russell称,ChatGPT和其他AI东西的练习或许很快耗尽「全宇宙的文本」。
换句话说,练习像ChatGPT这样的AI,将因数据量不行而受阻。
这或许会影响生成式AI开发人员,在未来几年搜集数据,以及练习人工智能的方法。
同时,Russell以为人工智能将在「言语输入,言语输出」的工作中取代人类。
数据不行,拿什么凑?
Russell近来的猜测引起了咱们要点重视。
OpenAI和其他生成式AI开发人员,为练习大型言语模型,开端进行数据搜集。
然而,ChatGPT和其他谈天机器人不可或缺的数据搜集实践,正面临着越来越多的审查。
其间就包括,未经个人同意状况下构思被运用,以及渠道数据被自由运用感到不满的一些高管。
但Russell的洞察力指向了另一个潜在的弱点:练习这些数据集的文本缺少。
去年11月,MIT等研究人员进行的一项研究估计,机器学习数据集或许会在2026年之前耗尽一切「高质量言语数据」。
论文地址:arxiv.org/pdf/2211.04…
根据这项研究,「高质量」集中的言语数据来自:书本、新闻文章、科学论文、维基百科和过滤后的网络内容等。
而加持当红炸子鸡ChatGPT背面的模型GPT-4相同接受了大量优质文本的练习。
这些数据来自公共在线的资源(包括数字新闻来历和交际媒体网站)
从交际媒体网站「数据抓取」,才导致马斯克出手限制用户每天可以检查的推文数量。
Russell标明,尽管许多报道未经证明,但都具体阐明了OpenAI从私家来历购买了文本数据集。尽管这种购买行为或许存在解说,但自然而然的揣度是,没有足够的高质量公共数据了。
一直以来,OpenAI尚未揭露GPT-4背面练习的数据。
而现在,OpenAI需要用「私家数据」来弥补其公共言语数据,以创建该公司迄今最强壮、最先进的人工智能模型 GPT-4。
足见,高质量数据确实不行用。
OpenAI在发布前没有立即回复置评恳求。
OpenAI深陷数据风波
近来,OpenAI遇上了大麻烦,原因都和数据有关。
先是16人匿名申述OpenAI及微软,并提交了长达157页的诉讼,宣称他们运用了私家说话和医疗记录等敏感数据。
他们的索赔金额高达30亿美元,诉讼中指出,
尽管拟定了购买和运用个人信息的协议,但是OpenAI和微软系统性地从互联网中窃取了3000亿个单词,包括数百万未经同意获取的个人信息。
这其间包括账户信息、姓名、联系方法、电子邮件、支付信息、买卖记录、浏览器数据、交际媒体、谈天数据、cookie等等。
这些信息被嵌入到ChatGPT中,但这些恰恰反映出个人爱好、观点、工作经历甚至家庭照片等。
而负责这次申述的律师事务所Clarkson,此前曾负责过数据走漏和虚假广告等问题的大规模团体诉讼。
紧接着,这周又有几位全职作者提出,OpenAI未经允许运用了自己的小说练习ChatGPT,构成侵权。
那么是怎么确认运用自己小说练习的呢?
依据便是,ChatGPT可以针对他们的书生成精确的摘要,这就足以阐明这些书被当作数据来练习ChatGPT。
作者Paul Tremblay和Mona Awad标明,「ChatGPT未经许可就从数千本书中复制数据,这侵犯了作者们的版权」。
申述书中预估,OpenAI的练习数据中至少包括30万本书,其间许多来自侵权网站。
比方,GPT-3练习数据状况披露时,其间就包括2个互联网图书语料库,大概占比为15%。
2位申述的作者以为,这些数据便是来自一些免费的网址,比方Z-Library、Sci-Hub等。
别的2018年,OpenAI曾泄漏练习GPT-1中的数据就包括了7000+本小说。申述的人以为这些书没有取得作者认可就直接运用。
另谋他法?
不得不说,OpenAI运用数据来历一事确实存在许多争议。
今年2月,《华尔街日报》记者Francesco Marconi曾标明,新闻媒体的数据也被用来练习ChatGPT。
Marconi让ChatGPT列了一个清单,竟有20家媒体。
早在今年5月,Altman在接受采访时曾标明,OpenAI已经有一段时间没有运用付费客户数据来练习大言语模型了。
客户明显不期望咱们练习他们的数据,所以咱们改变了方案,不再这么做。
其实,OpenAI在3月初,曾悄然更新了服务条款。
Altman说到,现在公司正在开发的新技术,可以运用更少的数据来练习模型。
或许从OpenAI身上受到了启示,谷歌挑选先行堵上这一漏洞。
7月1日,谷歌更新了其隐私政策,现在的政策中明确谷歌有权搜集任何揭露可用的数据,并将其用于其人工智能模型的练习。
谷歌向一切用户标明,只要是自己可以行揭露渠道取得的内容,都可以拿来练习Bard以及未来的AI。
参考资料:
www.businessinsider.com/ai-could-ru…