夕小瑶科技说 共享
来历 | 机器之心
CMU 与清华的研讨者联合发布了 Prompt2Model 结构,它可以依据用户供给的 prompt,快速练习一个小型专业模型。仅需投入 5 美元用于数据搜集和 20 分钟的练习时刻,就能取得功用优于 ChatGPT 平均水平 20% 的小型模型,一起模型参数规划减小了 700 倍。
大模型研讨测试传送门
GPT-4才能研讨传送门(遇浏览器警告点高级/继续拜访即可):
gpt4test.com
大规划言语模型(LLM)运用户可以凭借提示和上下文学习来构建强壮的自然言语处理体系。但是,从另一视点来看,LLM 在特定自然言语处理使命上体现存在必定让步:这些模型的布置需要很多计算资源,而且经过 API 与模型进行交互可能引发潜在的隐私问题。
为了应对这些问题,来自卡内基梅隆大学(CMU)和清华大学的研讨人员,共同推出了 Prompt2Model 结构。该结构的目标是将根据 LLM 的数据生成和检索办法相结合,以战胜上述应战。运用 Prompt2Model 结构,用户只需供给与 LLM 相同的提示,即可主动搜集数据并高效地练习适用于特定使命的小型专业模型。
研讨人员在三个自然言语处理子使命进步行了实验。采用少量样本提示作为输入,仅需花费 5 美元搜集数据并进行 20 分钟的练习,Prompt2Model 结构生成的模型在功用上相较强壮的 LLM 模型 gpt-3.5-turbo 体现出 20% 的功用提升。与此一起,模型的体积缩小了高达 700 倍。研讨人员进一步验证了这些数据在真实场景中对模型作用的影响,使得模型开发人员可以在布置前预估模型的可靠性。该结构已以开源方法供给:
GitHub库房地址:
github.com/neulab/prom…
演示视频:
youtu.be/LYYQ_EhGd-Q
相关论文链接:
arxiv.org/abs/2308.12…
布景
从零开始树立特定自然言语处理使命体系一般相当复杂。体系的构建者需要清晰定义使命范围,获取特定的数据集,挑选合适的模型架构,进行模型练习和评价,然后将其布置以供实践应用。
大规划言语模型(LLM)如 GPT-3 为这一过程供给了愈加简便的处理方案。用户只需供给使命提示(instruction)以及一些示例(examples),LLM 便能生成相应的文本输出。但是,经过提示生成文本可能会消耗很多计算资源,而且运用提示的方法不如经过专门练习的模型稳定。此外,LLM 的可用性还受到本钱、速度和隐私等方面的限制。
为了战胜这些问题,研讨人员开发了 Prompt2Model 结构。该结构将根据 LLM 的数据生成与检索技能相结合,以处理上述限制。该体系首先从 prompt 中提取要害信息,然后生成并检索练习数据,终究生成可供布置的专业化模型。
Prompt2Model 结构主动履行以下中心过程:
- 数据集与模型检索:搜集相关数据集和预练习模型。
- 数据集生成:运用 LLM 创立伪标记数据集。
- 模型微调:经过混合检索数据和生成数据对模型进行微调。
- 模型测试:在测试数据集和用户供给的真实数据集上对模型进行测试。
经过多个不同使命的实证评价,Prompt2Model 所花费本钱明显下降,模型的体积也大幅缩小,但功用超越了 gpt-3.5-turbo。Prompt2Model 结构不仅可作为高效构建自然言语处理体系的东西,还可用作探究模型集成练习技能的平台。
结构
Prompt2Model 结构的中心特色为高度主动化。其流程涵盖了数据搜集、模型练习、评价和布置等多个环节,如上图所示。其中,主动化数据搜集体系扮演了要害人物,它经过数据集检索和根据 LLM 的数据生成,获取与用户需求密切相关的数据。接着,体系会检索预练习模型,并在获取的数据集进步行微调。终究,体系会在测试集上对经过练习的模型进行评价,并创立用于与模型交互的 Web 用户界面(UI)。
Prompt2Model 结构的要害特色包含:
- Prompt 驱动:Prompt2Model 的中心思想在于运用 prompt 作为驱动,用户可以直接描述所需的使命,而无需深化了解机器学习的详细完成细节。
- 主动数据搜集:结构经过数据集检索和生成技能来获取与用户使命高度匹配的数据,然后树立练习所需的数据集。
- 预练习模型:结构运用预练习模型并进行微调,然后节省很多的练习本钱和时刻。
- 作用评价:Prompt2Model 支持在实践数据集进步行模型测试和评价,使得在布置模型之前就能进行初步猜测和功用评价,然后提高了模型的可靠性。
这些特色使 Prompt2Model 结构成为一个强壮的东西,可以高效地完成自然言语处理体系的构建过程,而且供给了先进的功用,如数据主动搜集、模型评价以及用户交互界面的创立。
实验与成果
在实验设计方面,研讨者挑选了三项不同的使命,以评价 Prompt2Model 体系的功用:
- 机器阅览问答(Machine Reading QA):运用 SQuAD 作为实践评价数据集。
- 日语自然言语到代码转化(Japanese NL-to-Code):运用 MCoNaLa 作为实践评价数据集。
- 时刻表达式规范化(Temporal Expression Normalization):运用 Temporal 数据集作为实践评价数据集。
此外,研讨者还选用了 GPT-3.5-turbo 作为基准模型进行对比。实验成果得出以下结论:
- 在除了代码生成使命之外的各项使命中,Prompt2Model 体系所生成的模型明显优于基准模型 GPT-3.5-turbo,尽管生成的模型参数规划远小于 GPT-3.5-turbo。
- 经过将检索数据集与生成数据集进行混合练习,可以达到与直接运用实践数据集练习相媲美的作用。这验证了 Prompt2Model 结构可以极大地下降人工标示的本钱。
- 数据生成器所生成的测试数据集可以有用区分不同模型在实践数据集上的功用。这表明生成的数据具有较高的质量,在模型练习方面具有充分的作用。
- 在日语到代码转化使命中,Prompt2Model 体系的体现不如 GPT-3.5-turbo。
这可能是因为生成的数据集质量不高,以及缺乏适当的预练习模型等原因所造成的。
归纳而言,Prompt2Model 体系在多个使命上成功生成了高质量的小型模型,极大地减少了对人工标示数据的需求。但是,在某些使命上仍需要进一步改进。
总结
研讨团队所推出的 Prompt2Model 结构完成了仅经过自然言语提示来主动构建使命特定模型的功用。这一立异明显地下降了构建定制化自然言语处理模型的门槛,进一步扩展了 NLP 技能的应用范围。
验证实验成果显现,Prompt2Model 结构所生成的模型相较于大型言语模型,其规划明显减小,且在多个使命上体现优于诸如 GPT-3.5-turbo 等模型。一起,该结构生成的评价数据集也被证实可以有用评价不同模型在真实数据集上的功用。这为指导模型的终究布置供给了重要价值。
Prompt2Model 结构为职业和广阔用户供给了一种低本钱、易于上手的途径,以获取满足特定需求的 NLP 模型。这关于推进 NLP 技能的广泛应用具有重要意义。未来的作业将继续致力于进一步优化结构的功用。
依照文章次序,本文作者如下:
Vijay Viswanathan:
www.cs.cmu.edu/~vijayv/
Chenyang Zhao:
zhaochenyang20.github.io/Eren_Chenya…
Amanda Bertsch:
www.cs.cmu.edu/~abertsch/
Tongshuang Wu:
www.cs.cmu.edu/~sherryw/
Graham Neubig:
www.phontron.com/