携手创造,共同成长!这是我参与「日新方案 8 月更文应战」的第7天,点击查看活动概况
导语
上篇博客为大家介绍了KBQA领域的一个经典数据集LC-QuAD 1.0。该数据集有着高达5000条的标示数据,是同期数据会集规划最大的。本文将为大家继续介绍LC-QuAD的后续数据集——LC-QuAD 2.0。LC-QuAD 2.0弥补了许多1的不足之处,同时供给了愈加高质量和更大规划的数据标示。
- 会议:ISWC 2019
- 链接:link.springer.com/chapter/10.…
1 简介
在过去的十年中,常识图谱(如DBpedia和Wikidata)现已成为在链接数据架构中存储现实的首要目标。从这些常识图谱中提取现实信息现已成为研讨的焦点。常识图谱问答(KGQA)是实现这一目标的技能之一。在KGQA中,研讨的要点通常是将自然语言问题翻译成正式语言查询SPARQL。
LCQuAD 1.0在发布时是运用SPARQL查询的最大的杂乱问题数据集。本文提出了LC-QuAD 2.0(Large-Scale Complex Question Answering Dataset 2.0),包含3万个问题,同义重写和相应的SPARQL查询,同时在DBpedia 2018和Wikidata上都进行了标示。这个数据集涵盖了与之前的数据集或任何其他现有的KGQA数据集比较的几个新的问题类型改变(见表1的比较)。
2 相关作业
跟着深度学习的开展,KGQA体系正从一个手工制作的根据规矩的体系开展到更强健的根据机器学习(ML)的体系。这种ML方法需求大数据集进行练习和测试。关于简略的问题,KGQA社区现已达到了很高的准确性水平,但关于更杂乱的问题,还有很大的改善空间。但由于深度学习需求大量的练习数据,因此该领域的大规划数据仍是一项急需的作业。
3 数据集作业流
整理的数据集生成和标示的作业流程如下图所示:
其首要流程和LC-QuAD 1.0相仿。具体如下:
- 首先,作者从Wikipedia Vital articles中挑选不同主题的各种重要实体作为初始的实体列表(作者没有运用Pagerank或实体流行度的方式是由于这类方法总会挑选更多的“人物”实体。)
- 然后,从其他数据集或者人工总结一些常用的SPARQL模板。
- 在sparql模板的基础上挑选谓词,这里会根据不同的模板类型来对谓词做过滤。例如,如果咱们想要创建计数类问题,用户想知道一个特定谓词成立的次数,某些谓词,如“birthPlace则被取消资格,由于它不会做一个连贯的计数问题。
- 挑选实体,得到查询子图,将谓词和子图刺进模板后,将生成终究的SPARQL。
- 接下来是第一个需求众包平台人工标示的作业:将NNQT(即模板填充的问题QTQ_T)请标示工人(以下简称工人)进行语法纠正,成为一个语法正确的语句QVQ_V;
- 接着,第二个工人将QVQ_V进行同义改写成为QPQ_P。在这两个工人改写的过程中,都会判别这个问题的具体目的是什么,于是,作者经过查看两人的目的是否一致来检验标示的质量。
- 最终,第三个工人进行人工审阅,将不合规格的标示除掉。
4 数据集特征
4.1 核算特征
图3展示了QTQ_T,QVQ_V,QPQ_P之间的类似程度。这些首要是经过两个目标来判别:
- BERT embedding 的余弦类似度:将问句输入BERT,对输出的embedding进行余弦类似度核算。
- 修改间隔的类似度:用于衡量重复字符出现的比例。
可以看到QTQ_T和QPQ_P之前的修改间隔类似度散布偏低,证明人工改写较大幅度的修改了模板的词汇,更具有语义意义。
4.2 问题类型
作者一共总结了10种类型的问题:
类型 | 阐明 | 举例 |
---|---|---|
Single fact | 最简略的单实体查询 | Who is the screenwriter of Mr. Bean? |
Single fact with type | 有类型约束的单实体查询 | Billie Jean was on the tracklist of which studio album? |
Multi-fact | 多实体查询 | What is the name of the sister city tied to Kansas City, which is located in the county of Seville Province? |
Fact with qualifiers | 含qualifiers查询 | What is the venue of Barack Obama’s marriage ? |
Two intention | 两个目的 | Who is the wife of Barack Obama and where did he got married? |
Boolean | 判别查询 | Did Breaking Bad have 5 seasons? |
Count | 计数查询 | What is the number of Siblings of Edward III of England ? |
Ranking | 排序查询 | what is the binary star which has the highest color index? |
String Operation | 字符串操作查询 | “Give me all the Rock bands that starts with letter R ? |
Temporal aspect | 时刻方面查询 | With whom did Barack Obama get married in 1992 ? |
各种类型的查询散布如图4所示。
总结
本文介绍了LC-QuAD的后续数据集——LC-QuAD 2.0。LC-QuAD 2.0弥补了许多1的不足之处,同时供给了愈加高质量和更大规划的数据标示,为研讨者供给了很好的基准数据集。