这个开源东西,竟然能用 GPT-4 代替人类去标示数据,功率比人类高了 100 倍,但本钱只需 1/7。
大模型满天飞的时代,AI 职业最缺的是什么?毫无疑问必定是算(xian)力(ka)。
老黄作为 AI 者仅有的「铲子供应商」,早已赚得盆满钵满。
除了 GPU,还有什么是练习一个高效的大模型必不可少且相同难以获取的资源?
高质量的数据。OpenAI 正是借助基于人类标示的数据,才一举从众多大模型企业中脱颖而出,让 ChatGPT 成为了大模型竞赛中阶段性的胜利者。
但一起,OpenAI 也由于运用非洲廉价的人工进行数据标示,被各种媒体口诛笔伐。
时代周刊报导 OpenAI 雇佣肯尼亚廉价劳动力标示
而那些参加数据标示的工人们,也由于长时刻暴露在有毒内容中,受到了不可逆的心思伤口。
卫报报导肯尼亚劳工责备数据标示作业给自己带来了不可逆的心思伤口
总归,关于数据标示,必定需求找到一个新的办法,才干防止很多运用人工标示带来的包含道德风险在内的其他潜在费事。
所以,包含谷歌,Anthropic 在内的 AI 巨子和大型独角兽,都在进行数据标示自动化的探究。
谷歌最近的研讨,开发了一个和人类标示能力相近的 AI 标示东西
Anthropic 选用了 ConstitutionalAI 来处理数据,也获得了很好的对齐作用
除了巨子们的测验之外,最近,一家草创公司 refuel,也上线了一个 AI 标示数据的开源处理东西:Autolabel。
Autolabel:用 AI 标示数据,功率最高提高 100 倍
这个东西能够让有数据处理需求的用户,运用市面上干流的 LLM(ChatGPT,Claude 等)来对自己的数据集进行标示。
refuel 称,用自动化的办法标示数据,比较于人工标示,功率最高能够提高 100 倍,而本钱只需人工本钱的 1/7!
就算依照运用本钱最高的 GPT-4 来算,选用 Autolabel 标示的本钱只需运用人工标示的 1/7,而假如运用其他更廉价的模型,本钱还能进一步下降
选用 Autolabel+LLM 的标示办法之后,标示功率更是大幅提高
关于 LLM 标示质量的评价,Autolabel 的开发者创立了一个基准测验,经过将不同的 LLM 的标示成果和基准测验中不同数据会集收纳的标准答案向比对,就能评价各个模型标示数据的质量。
当 Autolabel 选用 GPT-4 进行标示时,获得了最高的准确率——88.4%,超过了人类标示成果的准确率 86.2%。
而且其他比 GPT-4 廉价得多的模型的标示准确率,比较 GPT-4 来说也不算低。
开发者称,在比较简略的标示使命中选用廉价的模型,在困难的使命中选用 GPT-4,将能够大大节约标示本钱,一起几乎不影响标示的准确率。
Autolabel 支撑对自然语言处理项目进行分类,命名实体识别,实体匹配和问答。
支撑干流的一切 LLM 供给商:OpenAI、Anthropic 和 Google Palm 等,并经过 HuggingFace 为开源和私有模型供给支撑。
用户能够测验不同的提示战略,例如少样本和思想链提示。只需简略更新配置文件即可轻松估量标签置信度。
Autolabel 免除了编写复杂的攻略,无尽地等待外部团队来供给数据支撑的费事,用户能够在几分钟内开端标示数据。
能够支撑运用本地部署的私有模型在本地处理数据,所以关于数据隐私敏感度很高的用户来说,Autolabel 供给了本钱和门槛都很低的数据标示途径。
怎么用 AI 进行谈论有害性标示
所以,不论是律所想要经过 GPT-4 来对法律文档进行分类,仍是保险公司想要用私有模型对敏感的客户医疗数据进行分类或许筛查,都能够运用 Autolabel 进行高效地处理。
Autolabel 供给了一个简略的事例来展现了怎么运用它进行谈论有害性的标示过程。
假设用户是一个社交媒体的内容审阅团队,需求练习分类器来确认用户谈论是否有毒。
假如没有 Autolabel,用户需求首要收集几千个示例,并由一组人工注释者对它们进行标示,可能需求几周的时刻——熟悉标示政策,从小数据集到大数据集进行几回迭代,等等。
而假如运用 Autolabe 能够在分钟内就对这个数据集进行标示。
Autolabel 装置
首要装置一切必要的库:
pip install 'refuel-autolabel[openai]'
现在,将 OpenAI 密钥设置为环境变量。
下载和检查数据集
将运用一个名为 Civil Comments 的数据集,该数据集可经过 Autolabel 获得。你能够在本地下载它,只需运转:
from autolabel import get_data
get_data('civil_comments')
输出为:
Downloading seed example dataset to "seed.csv"...
100% [..............................................................................] 65757 / 65757
Downloading test dataset to "test.csv"...
100% [............................................................................] 610663 / 610663
标示例子:
运用自动标签贴标分为三个步骤:
首要,指定一个标签配置 (参见下面的 config 对象) 并创立一个 LabelingAgent。
接下来,经过运转 agent.plan,运用 config 中指定的 LLM 对的数据集进行一次标示
最终,运用 agent.run 运转标签
试验 1:测验简略的标签攻略
定义下面的配置文件:
假如要创立自定义配置,能够运用 CLI 或编写自己的配置。
现在,用 agent.plan 进行预演:
最终,进行数据标示:
输出成果为 54% 的准确率不是很好,进一步改善的具体办法能够拜访以下链接检查:
docs.refuel.ai/guide/overv…
技术细节:标示质量 Benchmark 介绍
在对 Autolabel 的基准测验中,包含了以下数据集:
表 1:Autolabel 标示的数据集列表
运用了以下 LLM:
表 2:用于评价的 LLM 供给者与模型列表
本研讨在三个标准上对 LLM 和人工标示进行评价:
首要是标签质量,即生成的标签与真实标签之间的共同性;
其次是周转时刻,即以秒为单位时,生成标签所花费的时刻;
最终是以分为单位,生成每个标签的本钱。
关于每个数据集,研讨人员都将其拆分为种子集和测验集两部分。
种子集包含 200 个示例,是从练习分区中随机采样构建的,用于置信度校准和一些少量的提示使命中。
测验集包含 2000 个示例,选用了与种子集相同的构建办法,用于运转评价和陈述一切基准测验的成果。
在人工标示方面,研讨团队从常用的数据标示第三方渠道聘请了数据标示员,每个数据集都配有多个数据标示员。
此过程分为三个阶段:
研讨人员为数据标示员供给了标示攻略,要求他们对种子集进行标示。
然后对标示过的种子集进行评价,为数据标示员供给该数据集的基准本相作为参考,并要求他们检查自己的过错。
随后,为数据标示员解说说明他们遇到的标签攻略问题,最终对测验集进行标示。
成果
标签质量
标签质量衡量的是生成的标签(由人类或 LLM 标示者生成)与数据会集供给的基准本相的符合程度。
关于 SQuAD 数据集,研讨人员用生成标签与基准本相之间的 F1 分数来衡量共同性,F1 是问题解答的常用目标。
关于 SQuAD 以外的数据集,研讨人员用生成标签与基准本相之间的精确匹配来衡量共同性。
下表汇总了各个数据集标签质量的成果:
表 3:各种 NLP 使命中的标签质量(与基准本相的共同率),每列中的最高数字以绿色标出
能够看到,与娴熟的人工数据标示员比较,最先进的 LLM 已经能够在相同甚至更好的水平上标示文本数据集,并且做到开箱即用,大大简化了繁琐的数据标示流程。
GPT-4 在一系列数据会集的标签质量都优于人类数据标示员。其他几个 LLM 的体现也在 80% 左右,但调用 API 的价格仅为 GPT-4 的十分之一。
但由于 LLM 是在很多数据集上练习出来的,所以在评价 LLM 的过程中存在着数据泄露的可能。
研讨人员对此进行了例如集合的额外改善,能够将体现最好的的 LLM(GPT-4、PaLM-2)与基准本相的共同性从 89% 提高到 95% 以上。
置信度估量
对 LLM 最大的诟病之一就是幻觉。因而,当务之急是用一种与标签正确的可能性相关的办法来评价标签的质量。
为了估量标签置信度,研讨人员将 LLM 输出的 token 级日志概率均匀化,而这种自我评价办法在各种预测使命中都很有用。
关于供给对数概率的 LLM(text-davinci-003),研讨人员运用这些概率来估量置信度。
关于其他 LLM,则运用 FLAN T5 XXL 模型进行置信度估量。
标签生成后,查询 FLAN T5 XXL 模型以获得生成的输出标示的概率分布,但前提是输入的提示信息与用于标签的信息相同。
表 4:同一数据集上 gpt-3.5-turbo 和 gpt-4 的标签质量与完成率
在校准步骤中,研讨人员利用估量置信度来了解标签质量和完成率之间的权衡。
即研讨人员为 LLM 确认了一个作业点,并回绝一切低于该作业点阈值的标签。
例如,上图显示,在 95% 的质量阈值下,咱们能够运用 GPT-4 标示约 77% 的数据集。
添加这一步的原因是 token 级日志概率在校准方面的作用欠安,如 GPT-4 技术陈述中所强调的那样:
GPT-4 模型的校准图:比较预练习和后 RLHF 版本的置信度和准确性
运用上述置信度预算办法,并将置信度阈值设定为 95% 的标签质量(比较之下,人类标示者的标签质量为 86%),得到了以下数据集和 LLM 的完成率:
95% 与基准本相共同的完成率
比较之下,人类标示者与基准本相的共同性为 86.6%。
从上图能够看到在一切数据会集,GPT-4 的均匀完成率最高,在 8 个数据会集,有 3 个数据集的标示质量超过了这一质量阈值。
而其他多个模型(如 text-bison@001、gpt-3.5-turbo、claude-v1 和 flan-t5-xxl)也实现了很好的功能:
均匀至少成功自动标示了 50% 的数据,但价格却只需 GPT-4 API 本钱的 1/10 以下。
未来更新的方向
在接下来的几个月中,开发者许诺将向 Autolabel 添加很多新功能:
支撑更多 LLM 进行数据标示。
支撑更多标示使命,例如总结等。
支撑更多的输入数据类型和更高的 LLM 输出稳健性。
让用户能够试验多个 LLM 和不同提示的作业流程。
参考资料:
www.refuel.ai/blog-posts/…