房屋 发自 凹非寺 量子位 | 大众号 QbitAI

“套壳ChatGPT!”“套皮Stable Diffusion!”“实则抄袭!”……

外界对国产大模型产生质疑现已不是一次两次了。

业界人士对这个现象的解说是,高质量的中文数据集实在紧缺,训模型时只能让采买的外文标示数据集“当外援” 。练习所用的数据集撞车,就会生成相似效果,进而引发乌龙事件。

国产ChatGPT「套壳」的秘密,现在被找到了

其他方法中,用现有大模型辅佐生成练习数据简单数据清洗不到位,重复运用token会导致过拟合,仅练习稀疏大模型也不是长久之计。

业界逐渐构成一致:

通往AGI的道路,对数据数量和数据质量都将继续提出极高的要求。

时势所需,近2个月来,国内不少团队先后开源了中文数据集,除通用数据集外,针对编程、医疗等垂域也有专门的开源中文数据集发布。

高质量数据集虽有但少

大模型的新突破十分依赖高质量、丰富的数据集。

依据OpenAI 《Scaling Laws for Neural Language Models》提出大模型所遵从的伸缩规律(scaling law)能够看到,独立添加练习数据量,是能够让预练习模型作用变更好的。

国产ChatGPT「套壳」的秘密,现在被找到了

这不是OpenAI的一家之言。

DeepMind也在Chinchilla模型论文中指出,之前的大模型多是练习不足的,还提出最优练习公式,已成为业界公认的规范。

国产ChatGPT「套壳」的秘密,现在被找到了
干流大模型,Chinchilla参数最少,但练习最充分

不过,用来练习的干流数据集以英文为主,如Common Crawl、BooksCorpus、WiKipedia、ROOT等,最盛行的Common Crawl中文数据只占有4.8%。

中文数据集是什么状况?

揭露数据集不是没有——这一点量子位从澜舟科技创始人兼CEO、当今NLP范畴成就最高华人之一周明口中得到证明——如命名实体数据集MSRA-NER、Weibo-NER等,以及GitHub上可找到的CMRC2018、CMRC2019、ExpMRC2022等存在,但全体数量和英文数据集比较可谓九牛一毛。

而且,其间部分现已老旧,或许都不知道最新的NLP研讨概念(新概念相关研讨只以英文方式呈现在arXiv上)。

中文高质量数据集虽有但少,运用起来比较麻烦,这便是一切做大模型的团队不得不面对的惨烈现状。此前的清华大学电子系系友论坛上,清华计算机系教授唐杰共享过,千亿模型ChatGLM-130B练习前数据准备时,就曾面对过清洗中文数据后,可用量不到2TB的状况。

解决中文世界缺少高质量数据集火烧眉毛。

卓有成效的解决方法之一,是直接用英文数据集训大模型

在人类玩家打分的大模型匿名竞技场Chatbot Arena榜单中,GPT-3.5在非英文排行榜位居第二(第一是GPT-4)。要知道,96%的GPT-3.5练习数据都是英文,再刨去其他语种,用来练习的中文数据量少到能够用“千分之n”来计算。

国产ChatGPT「套壳」的秘密,现在被找到了

国内top3高校某大模型相关团队在读博士透露,如果选用这种方法,不嫌麻烦的话,甚至能够给模型接一个翻译软件,把一切言语都转换成英语,然后把模型的输出转换为中文,再回来给用户。

国产ChatGPT「套壳」的秘密,现在被找到了

然而这样喂食出的大模型始终是英文思维,当遇到成语改写、俗语理解、文章改写这类含有中文言语特色的内容,往往处理不佳,呈现翻译过错或潜在文明的偏差。

还有个解决方法便是采集、清洗和标示中文语料,做新的中文高质量数据集,供应给大模型们。

开源数据集众人拾柴

察觉现况后,国内不少大模型团队决议走第二条路,着手运用私有数据库做数据集。

百度有内容生态数据,腾讯有大众号数据,知乎有问答数据,阿里有电商和物流数据。

堆集的私有数据纷歧,就或许在特定场景和范畴建立中心优势壁垒,将这些数据严厉搜集、收拾、筛选、清洗和标示,能保证训出模型的有效性和准确性。

而那些私有数据优势不那么显着大模型团队,开始全网爬数据(能够预见,爬虫数据量会非常大)。

国产ChatGPT「套壳」的秘密,现在被找到了

华为为了打造盘古大模型,从互联网爬取了80TB文本,最后清洗为1TB的中文数据集;浪潮源1.0练习选用的中文数据集达5000GB(比较GPT3模型练习数据集为570GB);最近发布的天河天元大模型,也是天津超算中心搜集收拾全域网页数据,一起归入各种开源练习数据和专业范畴数据集等的效果。

与此一起,近2个月来,中文数据集呈现众人拾柴火焰高的现象——

许多团队连续发布开源中文数据集,弥补当前中文开源数据集的不足或失衡。

其间部分收拾如下:

  • CodeGPT:由GPT和GPT生成的与代码相关的对话数据集;背面组织为复旦大学。
  • CBook-150k:中文语料图书调集,包括15万本中文图书的下载和抽取方法,涵盖人文、教育、科技、军事、政治等众多范畴;背面组织为复旦大学。****
  • RefGPT:为了避免人工标示的昂贵成本,提出一种主动生成事实型对话的方法,并揭露咱们的部分数据,包括5万条中文多轮对话;背面是来自上海交大、香港理工大学等组织的NLP从业者。
  • COIG:全称“我国通用敞开指令数据集”,是更大、更多样化的指令调优语料库,并由人工验证确保了它的质量;背面的联合组织包括北京人工智能研讨院、谢菲尔德大学、密歇根大学、达特茅斯学院、浙江大学、北京航空航天大学、卡内基梅隆大学。
  • Awesome Chinese Legal Resources:我国法律数据资源,由上海交大搜集和收拾。****
  • Huatuo:通过医学知识图谱和GPT3.5 API构建的中文医学指令数据集,在此基础上对LLaMA进行了指令微调,提高了LLaMA在医疗范畴的问答作用;项目开源方是哈工大。****
  • Baize:运用少数“种子问题”,让 ChatGPT 自己跟自己聊天,并主动搜集成高质量多轮对话数据集;加州大学圣迭戈分校(UCSD)与中山大学、MSRA合作团队把运用此法搜集的数据集开源。

国产ChatGPT「套壳」的秘密,现在被找到了

当更多的中文数据集被开源到聚光灯下,行业的态度是欢迎与欢喜。如智谱AI创始人兼CEO张鹏表达出的态度:

中文高质量数据只是被藏在深闺罢了,现在我们都意识到这个问题了,自然也会有相应的解决方案,比方数据开源。
总之是在向好的方向发展,不是吗?

值得注意的是,除了预练习数据,现在阶段人类反应数据同样不可或缺

现成的例子摆在眼前:

与GPT-3比较,ChatGPT叠加的重要buff便是运用RLHF(人类反应强化学习),生成用于fine-tuing的高质量标记数据,使得大模型向与人类目的对齐的方向发展。

提供人类反应最直接的方法,便是告知AI帮手“你的答复不对”,或者直接在AI帮手生成的回复周围点赞或踩一踩。

国产ChatGPT「套壳」的秘密,现在被找到了

先用起来就能先搜集一波用户反应,让雪球滚起来,这便是为什么我们都抢着发布大模型的原因之一。

现在,国内的类ChatGPT产品,从百度文心一言、复旦MOSS到智谱ChatGLM,都提供了进行反应的选项。

但由于在大部分体会用户眼中,这些大模型产品最主要的还是“玩具”属性。

当遇到过错或不满意的答复,会选择直接关掉对话界面,并不利于背面大模型对人类反应的搜集。

So~

往后遇到AI生成答复有过错或遗漏时,请不要吝惜一次点击,高举你手中的“

国产ChatGPT「套壳」的秘密,现在被找到了
”或“
国产ChatGPT「套壳」的秘密,现在被找到了
,让大模型能搜集更多的人类反应。

就像读到这儿,不要吝惜对这篇推文点赞、转发、在看一样!(doge)

联络 作者

国产ChatGPT「套壳」的秘密,现在被找到了