LLM 面对哪些应战又有哪些运用?系统性的总述论文来了。

从毫无存在感到无人不谈,大型言语模型(LLM)的江湖地位在这几年发生了巨变。这个范畴的开展令人目不暇接,但也正因如此,人们难以了解还有什么难题有待处理以及哪些范畴已有成熟运用。

为了帮助机器学习研讨者更快了解 LLM 范畴的当前现状并提高他们的生产力,来自伦敦大学学院等多家机构的研讨团队不畏繁琐,系统性地总结了 LLM 范畴的困难应战和成功运用。

LLM 研讨大热的现状也在这篇总述论文的参考文献中得到了体现 —— 总共 22 页参考文献,引用了 688 篇论文!

机器之心对这篇总述论文的大致框架进行了收拾,以便读者能快速了解 LLM 的应战和运用,更具体的论说和具体文献请参阅原论文。

分析过688篇大模型论文,这篇论文综述了LLM的当前挑战和应用

论文:arxiv.org/abs/2307.10…

整体而言,这篇总述论文聚集于两大主题:(1) 应战:哪些问题仍未处理?(2) 运用:LLM 当前的运用以及这些运用面对哪些应战?关于主题 (1),研讨者将 LLM 面对的应战分成了三个大类:规划、行为和科学。关于主题 (2),研讨者探究了谈天机器人、核算生物学、核算生物学、核算机编程、构思作业、常识作业、法令、医学、推理、机器人和社会科学等范畴。

分析过688篇大模型论文,这篇论文综述了LLM的当前挑战和应用

图 1:LLM 应战概略。LLM 的规划与布置前做出的决议计划有关。LLM 行为方面的应战发生在布置阶段。科学方面的应战会阻止学术前进。

研讨者声明,这篇论文整理的内容带有个人倾向性,而且假定读者现已了解 LLM 的作业方式。此外,他们更关注基于文本数据练习的模型。他们的总述论文也专心于技能方面,不会讨论 LLM 在政治、哲学或道德方面的议题。

应战

难以了解的数据集

关于 LLM 而言,其预练习数据集的规模十分大,任何个人都无法彻底阅览其间的文档或评价这些文档的质量。这方面触及的问题包含:

  • 有许多十分相近简直算是重复的数据;
  • 基准数据遭受污染;
  • 某些信息可用于辨认个人的身份;
  • 预练习的数据域混在一同;
  • 微调使命混在一同的状况难以处理。

分析过688篇大模型论文,这篇论文综述了LLM的当前挑战和应用

表 1:所选预练习数据集概略

这些年来,预练习数据集变得更加难以了解了:它们的规模和多样性都在迅速增长,而且不是一切数据集都是公开可用的。

依靠 token 化器

token 化器带来了一些应战,比方核算开支、言语依靠性、对新词的处理、固定词汇量、信息丢失和人类可解释性低。

分析过688篇大模型论文,这篇论文综述了LLM的当前挑战和应用

图 2:依靠 token 化器的典型缺陷。(1) token 化器的练习过程触及到杂乱繁琐的核算,比方屡次遍历整个预练习数据集,而且还会导致对预练习数据集的依靠,这在多言语环境中是个尤其费事的问题。(2) LLM 的嵌入层 E 和输出层 W 与词汇量有关,比方在 T5 模型中词汇占到了模型参数数量的 66% 左右。

预练习本钱高

经过增加核算预算能够提高模型的功能体现,但如果模型或数据集巨细固定,则增长比率会降低,呈现收益递减的幂律趋势。

分析过688篇大模型论文,这篇论文综述了LLM的当前挑战和应用

图 3:掩码战略。每一行表明一个特定输出 y_i(行)能够考虑哪些输入 x_i(列)(赤色表明单向,蓝色表明双向)。

分析过688篇大模型论文,这篇论文综述了LLM的当前挑战和应用

图 4:根据预练习目标进行自监督式的数据构建,来自 Tay et al.

微调开支

需求大量内存:对整个 LLM 进行微调时需求预练习时相同大的内存,但许多从业者无法办到。

存储和加载微调 LLM 的开支:当经过全模型微调让 LLM 习惯当前使命时,必须存储模型的一个副本(这需求数据存储空间),用于使命时还需求进行加载(需求为此分配内存)。

分析过688篇大模型论文,这篇论文综述了LLM的当前挑战和应用

图 5:针对下游具体使命对 LLM 进行微调。(a) 展现了简略一般的微调,这需求更新整个模型,然后为每个使命生成一个新模型。(b) 展现了 PEFT 办法,其为每个使命学习一个模型参数子集,然后配合固定的根底 LLM 运用。针对不同使命履行推理时,能够复用同一个根底模型。

全矩阵乘法:若要对 LLM 完成参数高效的微调,就需求在整个网络中履行完整的前向 / 后向经过。

推理推迟高

LLM 的推理推迟仍然很高,原因包含并行性低和内存足迹大。

上下文长度有限

上下文长度有限使得 LLM 难以很好地处理长输入,让 LLM 不能很好地助力小说或教科书写作或总结等运用。

prompt 不稳定

prompt 句法的改变导致的成果改变对人类来说并不直观,有时候输入一点小改变就会导致输出大变样。

分析过688篇大模型论文,这篇论文综述了LLM的当前挑战和应用

图 6:所选的 prompt 规划办法概略,分为单轮和多轮 prompt 规划。

错觉问题

错觉问题是指生成的文本虽然流通又自然,但却不忠实于内容来历(内涵问题)和 / 或不确定(外在问题)。

分析过688篇大模型论文,这篇论文综述了LLM的当前挑战和应用

图 7:GPT-4 的错觉问题示例,拜访日期:02/06/2023。

分析过688篇大模型论文,这篇论文综述了LLM的当前挑战和应用

图 8:用户与 LLM 互动时的 a) 内涵和 b) 外在错觉示例。示例 a) 中,LLM 给出的答案与给定上下文相对立,而在 b) 中,上下文没有供给满足信息,无法知道生成的答案是否相对立。

分析过688篇大模型论文,这篇论文综述了LLM的当前挑战和应用

图 9:检索增强型 GPT-4 示例,这是错觉问题的一种潜在处理办法,拜访日期:02/06/2023。

行为不对齐

LLM 常会生成与人类价值或目的不对齐的输出,这或许导致意想不到的负面后果。

分析过688篇大模型论文,这篇论文综述了LLM的当前挑战和应用

图 10:对齐。这儿将对齐方面的现有研讨作业分为两类:检测未对齐的行为和完成模型对齐的办法。

过期的常识

LLM 在预练习期间学到的事实信息或许不准确或随着时刻的推移而变得过期。但是,运用更新的预练习数据重新练习模型的本钱不低,而企图在微调阶段忘记过期事实并学习新常识的难度也不小。

分析过688篇大模型论文,这篇论文综述了LLM的当前挑战和应用

图 11:常识过期问题的处理办法有:S.1) 经过对根底检索索引运用热交换,使其获得最新常识,然后增强检索才能;S.2) 经过运用模型编辑技能。

评价办法不稳定

对根底 prompt 或评价协议进行少数修正就或许导致成果呈现巨大改变。

基于静态的、人工编写的 Ground Truth 来履行评价

随着时刻的推移,静态基准的实用性越来越低,因为模型的才能在改变,而更新这些基准需求人类来编写 Ground Truth。

难以分辨生成的文本和人类编写的文本

随着 LLM 的开展,人们越来越难以区别文本是来自 LLM 还是人类。

而就算文本现已被发现是 LLM 生成的,还能经过所谓的转述攻击(Paraphrasing Attacks)绕开,即用另一个 LLM 重写生成的文本,使成果保存大致相同的意思,但改变词或语句架构

无法经过模型或数据扩展处理的使命

某些使命好像无法经过进一步扩展数据或模型来处理,比方一些组合使命(Compositional tasks)。

缺少试验规划

表 2 列出了触及这方面的一些学术论文。许多研讨作业都没有做控制变量试验,如果模型的规划空间很大,那么这个问题就显得尤为严峻。研讨者认为这会阻止对 LLM 的科学了解和技能前进。

分析过688篇大模型论文,这篇论文综述了LLM的当前挑战和应用

表 2:所选 LLM 概略。N/A 表明细节缺失。关于研讨了多种模型巨细的论文,这儿仅给出了最大的模型。关于 Tokenizer 项为 SP 的论文,研讨者表明无法从相应论文中得知运用的是 BPE 还是 Unigram token 化办法。

对照试验:介绍新 LLM 的论文一般缺少对照试验,这或许是因为练习满足多模型的本钱过高。

(规划)维度诅咒:一般而言,LLM 试验的规划空间的维度很高。

难以复现

不行重复的练习流程:一般来说,现在常用的练习战略是并行化的,即会将练习进程涣散到许多加速器上,而这个进程对错确定性的,这会使得咱们难以复现 LLM 的练习进程。

不行重现的 API:以推理 API 的形式供给服务的模型一般是不行重现的。

运用

下面将聚集于 LLM 的运用范畴,其间重点关注各范畴常见的运用架构。

此外还会强调每个运用范畴所面对的要害约束。

分析过688篇大模型论文,这篇论文综述了LLM的当前挑战和应用

图 12:LLM 运用概略。不同颜色表明不同的模型习惯程度,包含预练习、微调、提示战略、评价。

谈天机器人

通用型谈天机器人(对话智能体)包含多种使命,如信息检索、多轮交互和文本生成(包含代码)。

坚持连贯性:多轮交互使谈天机器人很容易「忘记」对话中更早的部分或重复自己说过的话。

推理推迟高:推理推迟高的话,用户体验会大打折扣,尤其是要和谈天机器人进行多轮对话时。

核算生物学

核算生物学关注的是表明类似序列建模和预测应战的非文本数据。

难以迁移到下游使命:蛋白质言语模型的最终目标是将它们布置到药物规划等实际项目中。评价一般针对较小和 / 或专门的数据集,而不考虑模型如何有助于生体外或生体内的蛋白质规划。

上下文窗口有限:最大的基因组的 DNA 序列远远长于现有基因组 LLM 的上下文窗口,这会让研讨者难以运用这些 LLM 建模某些基因组类型。

核算机编程

LLM 最先进和广泛采用的一大运用是用各种编程言语生成和补完核算机程序。

长程依靠:因为上下文长度有限,LLM 一般无法考虑跨代码库的长程依靠关系。

分析过688篇大模型论文,这篇论文综述了LLM的当前挑战和应用

图 13:API 界说框架。这张示目的展现了一个 API 界说框架:为了处理特定使命,能够在 prompt 中供给一个通用的 API 界说,然后让 LLM 能够运用外部代码或东西。这种办法的扩展包含要求 LLM 完成 API 界说中的功能(赤色),以及提示 LLM 自己去调试任何不履行的 API 代码(绿色)。

构思作业

在构思作业方面,LLM 主要被用于生成故事和剧本。

上下文窗口有限:因为上下文窗口有限,当前的 LLM 无法完整地生成长著作,这会约束它们在长著作方面的运用,也催生了对模块化 prompt 规划的需求。

分析过688篇大模型论文,这篇论文综述了LLM的当前挑战和应用

图 14:模块化 prompt 规划。经过一系列分立的 prompt 和处理过程,LLM 能够履行无法放入单个上下文窗口中的使命以及处理无法经过单一 prompt 过程处理的使命。

常识作业

随着 LLM 在特定范畴的常识使命(比办法令或医学)上的才能逐步得到证明,人们也越来越有兴趣将 LLM 用于更广泛的常识作业。这些潜在运用的规模十分广泛,据 Eloundou et al. 估计,美国 80% 的劳动力所从事的作业中至少有 10% 的使命会遭到 LLM 的影响。

数值推理:LLM 一般在触及数量的使命上体现更差,这或许会约束它们在金融服务或会计等常识作业范畴的运用。

法令

LLM 在法令范畴的运用与在医学范畴的有许多类似之处,包含法令问答和法令信息提取。但也有人提出过其它特定范畴的运用,比方案件成果预测、法令研讨和法令文本生成。

信息过期问题:因为法令会不断更新,新的判例也会不断呈现,因此练习 / 检索数据经常会遇到过期的问题。

医学

医学范畴现已提出了许多 LLM 运用,包含医学问答、临床信息提取、索引、分诊、和健康记录办理。

错觉和成见:医疗范畴的安全性是至关重要的,这意味着呈现错觉的或许性会极大地约束当前的用例。此外,为了降低 LLM 连续现有临床数据集中的成见的危险,还需求进一步的研讨作业。

推理

数学和算法使命往往需求不同于传统 NLP 使命的才能调集,比方了解数学运算、杂乱的多步推理和更长时间的规划。因此,现在人们也在尽力研讨如何将 LLM 用于这些使命以及如何提高 LLM 的才能。

功能体现不及人类:在推理基准使命上,现有的 LLM 难以比肩人类。

机器人和具身智能体

LLM 也现已开始被集成到机器人运用中,认为机器人供给高层规划和语境常识才能。

单一模态问题:虽然 LLM 能够帮助机器人或智能体了解指令和增加高层规划才能,但它们却无法直接学习图画、音频或其它感官模态,这就约束了它们的运用。

社会科学和心理学

快速开展的 LLM 也在心理学和行为科学范畴找到了潜在的运用场景。研讨者剖析了已有的文献,找到了 LLM 在心理学和行为科学范畴得到运用的三个主要方向:运用 LLM 来模拟人类行为试验、剖析 LLM 的人格特质、运用 LLM 作为建模社会关系的人工智能体。如图 15 所示。

分析过688篇大模型论文,这篇论文综述了LLM的当前挑战和应用

图 15:LLM 在社会科学和心理学范畴的用例。

社会成见:因为 LLM 的练习数据中存在不平衡的观点和定见,因此会使其倾向有成见的人类行为。

生成组成数据

LLM 具备在上下文中学习的才能,因此能够经过 prompt 让其生成组成数据集,用于练习更小型的特定范畴的模型。

带错觉的分布:因为咱们现在还无法验证生成的组成数据是否能否代表对应的实在国际数据的分布,因此目前还难以运用 LLM 生成完整的组成数据集。