动动发财的小手,点个赞吧!

NLP 中结合结构化和非结构化常识的研讨概略

自 2012 年谷歌推出常识图谱 (KG) 以来,常识图谱 (KGs) 在学术界和工业界都引起了广泛关注 (Singhal, 2012)。作为实体之间语义联络的表明,常识图谱已被证明与天然言语处理(NLP)特别相关,并且在最近几年敏捷盛行起来,这一趋势好像正在加速。鉴于该范畴的研讨作业越来越多,NLP 研讨界现已对几种与 KG 相关的办法进行了查询。然而,迄今为止,仍缺少对既定主题进行分类并检查各个研讨流的老练度的归纳研讨。为了缩小这一差距,咱们体系地剖析了 NLP 中关于常识图谱的文献中的 507 篇论文。因而,本文对研讨远景进行了结构化概述,供给了使命分类,总结了发现,并强调了未来作业的方向。

什么是天然言语处理?

天然言语处理 (NLP) 是言语学、计算机科学和人工智能的一个子范畴,关注计算机与人类言语之间的交互,特别是如何对计算机进行编程以处理和剖析很多天然言语数据。

什么是常识图?

KGs 现已成为一种以机器可读格局语义表明实在世界实体常识的办法。大多数作品隐含地采用了常识图谱的广义界说,将它们了解为“旨在堆集和传达实践世界常识的数据图,其节点代表感兴趣的实体,其边代表这些实体之间的联络”。

为什么咱们在 NLP 中运用常识图谱?

底层范式是结构化和非结构化常识的结合能够使各种 NLP 使命受益。例如,能够将常识图谱中的结构化常识注入言语模型中发现的上下文常识中,然后进步下流使命的性能(Colon-Hernandez 等人,2021)。此外,鉴于当时关于大型言语模型(例如 ChatGPT)的揭露讨论,咱们或许会运用 KG 来验证并在必要时纠正生成模型的错觉和过错陈述。此外,随着 KG 的重要性日益添加,从非结构化文本构建新的 KG 的尽力也在不断扩大。

NLP 中如何运用常识图谱?

研讨格局的特点

下图显现了十年观察期内的出版物分布情况。

自然语言处理: 知识图谱的十年

虽然第一批出版物出现在 2013 年,但年度出版物在 2013 年至 2016 年间增长缓慢。从 2017 年开端,出版物数量简直每年翻一番。因为这些年研讨兴趣的显着添加,超越 90% 的出版物都来自这五年。尽管增长趋势好像在 2021 年中止,但这很或许是因为数据导出发生在 2022 年的第一周,遗漏了许多 2021 年的研讨,这些研讨在 2022 年晚些时候被纳入数据库。尽管如此,趋势清楚地表明KG 越来越受到 NLP 研讨界的关注。

此外,咱们观察到研讨文献中探索的范畴数量与年度论文数量同步快速增长。在下图中,显现了十个最常用的域。

自然语言处理: 知识图谱的十年

令人惊讶的是,健康是迄今为止最突出的范畴。后者出现的频率是排名第二的学术范畴的两倍多。其他受欢迎的范畴是工程、商业、社交媒体或法律。鉴于范畴的多样性,很明显 KGs 天然适用于许多不同的环境。

研讨文献中的使命

根据 NLP 常识图谱文献中确认的使命,咱们开发了如下所示的实证分类法。

自然语言处理: 知识图谱的十年

两个尖端类别包括常识获取和常识使用。常识获取包括 NLP 使命,从非结构化文本构建常识图谱(常识图谱构建)或对已构建的常识图谱进行推理(常识图谱推理)。 KG 构建使命进一步分为两个子类:常识提取,用于用实体、联络或属性填充 KG,以及常识集成,用于更新 KG。常识使用是第二个尖端概念,包括常见的 NLP 使命,这些使命经过 KG 的结构化常识得到增强。

常识图谱构建

实体提取使命是构建常识图谱的起点,用于从非结构化文本中提取实在世界的实体。一旦相关实体被挑选出来,它们之间的联络和交互就会经过联络抽取的使命被发现。许多论文一起运用实体抽取和联络抽取来构建新的常识图谱,例如,用于新闻事件或学术研讨。实体链接是将某些文本中辨认的实体链接到常识图谱中现已存在的实体的使命。因为同义或相似的实体经常存在于不同的常识图谱或不同的言语中,因而能够执行实体对齐以削减未来使命中的冗余和重复。提出 KGs 的规则和计划,即它们在其间出现的常识的结构和格局,是经过本体构建的使命完结的。

常识图谱推理

一旦构建,常识图谱就包括结构化的世界常识,可用于经过对它们进行推理来推断新常识。因而,对实体进行分类的使命称为实体分类,而链接预测是推断现有常识图谱中实体之间缺失链接的使命,一般经过对实体进行排序作为查询的或许答案来执行。常识图嵌入技能用于创建图的密集向量表明,以便它们随后可用于下流机器学习使命。

常识使用

现有的常识图谱可用于多种盛行的 NLP 使命。在这里,咱们概述了最受欢迎的。问答 (QA) 被发现是运用常识图谱最常见的 NLP 使命。此使命一般分为文本 QA 和常识库问答 (KBQA)。文本 QA 从非结构化文档中获取答案,而 KBQA 从预界说的常识库中获取答案。 KBQA 天然地与 KGs 联络在一起,而文本 QA 也能够经过运用 KGs 作为答复问题时的常识性常识来历来实现。这种办法之所以受欢迎,不仅因为它有助于生成答案,还因为它使答案更易于解释。语义查找是指“有意义的查找”,其目标不仅仅是查找字面匹配,还包括了解查找意图和查询上下文。此标签表明运用常识图谱进行查找、推荐和剖析的研讨。示例是称为 ConceptNet 的日常概念的大型语义网络和学术交流和联络的 KG,其间包括 Microsoft Academic Graph。对话界面构成了另一个 NLP 范畴,能够从常识图谱中包括的世界常识中获益。咱们能够运用常识图谱中的常识来生成会话署理的呼应,这些呼应在给定的上下文中供给的信息更丰富、更适宜。

天然言语生成 (NLG) 是 NLP 和计算言语学的一个子范畴,它与从头开端生成天然言语输出的模型有关。 KG 在此子范畴中用于从 KG 生成天然言语文本、生成问答对、图像字幕的多模式使命或低资源设置中的数据增强。文本剖析结合了各种用于处理和了解文本数据的剖析 NLP 技能和办法。示例性使命是情绪检测、主题建模或词义消歧。增强言语模型是大型预练习言语模型 (PLM) 的组合,例如 BERT(Devlin 等人,2019 年)和 GPT(Radford 等人,2018 年)与常识图谱中包括的常识。因为 PLM 从很多非结构化练习数据中获取常识,因而将它们与结构化常识相结合的研讨趋势正在鼓起。来自常识图谱的常识能够经过输入、架构、输出或它们的某种组合被注入言语模型。

在 NLP 中运用常识图的抢手使命

下图显现了 NLP 中运用常识图谱最盛行的使命。

自然语言处理: 知识图谱的十年

咱们能够观察到,比如联络抽取或语义查找之类的使命现已存在了一段时间,并继续稳步增长。在咱们的研讨中,咱们运用这个作为一个指标来得出联络提取或语义查找等使命现已适当老练的定论。相比之下,增强言语模型和常识图嵌入使命依然能够被认为是相对不老练的。这或许是因为这些使命还相对年青且研讨较少。上图显现,这两项使命从 2018 年开端研讨量急剧添加,并引起了广泛关注。

总结

近年来,KGs 在 NLP 研讨中的地位日益突出。自 2013 年首次宣布以来,全世界的研讨人员越来越关注从 NLP 的视点研讨常识图谱,尤其是在过去的五年中。为了概述这个老练的研讨范畴,咱们对 KGs 在 NLP 中的运用进行了多方面的查询。咱们的研讨结果表明,NLP 中有关常识图谱的很多使命已在各个范畴进行了研讨。关于运用实体抽取和联络抽取构建 KG 的论文占一切作品的大部分。 QA 和语义查找等使用 NLP 使命也有强壮的研讨社区。近年来最新式的主题是增强言语模型、QA 和 KG 嵌入。

一些概述的使命依然局限于研讨界,而其他使命现已在许多实践生活中找到了实践使用。咱们观察到 KG 构建使命和对 KG 的语义查找是使用最广泛的使命。在 NLP 使命中,QA 和对话界面已被许多实践生活范畴采用,一般以数字助理的形式出现。 KG 嵌入和增强言语模型等使命仍处于研讨阶段,在实践场景中缺少广泛的实践使用。咱们估计,随着增强言语模型和 KG 嵌入的研讨范畴的老练,将针对这些使命研讨更多的办法和东西。

本文由mdnice多渠道发布