导语

本文记录了今年的自然言语处理世界顶级会议EMNLP 2023中接纳的一切与Text-to-SQL相关(经过查找标题关键词查找得到,或许不全)的论文,共计12篇,包括5篇正会论文和7篇Findings论文,以下是对这些论文的略读,某几篇也有具体的笔记(见链接)。

序号 类型 标题
1 Main Benchmarking and Improving Text-to-SQL Generation under Ambiguity
2 Main Evaluating Cross-Domain Text-to-SQL Models and Benchmarks
3 Main Exploring Chain of Thought Style Prompting for Text-to-SQL
4 Main Interactive Text-to-SQL Generation via Editable Step-by-Step Explanations
5 Main Non-Programmers Can Label Programs Indirectly via Active Examples: A Case Study with Text-to-SQL
6 Findings Battle of the Large Language Models: Dolly vs LLaMA vs Vicuna vs Guanaco vs Bard vs ChatGPT – A Text-to-SQL Parsing Comparison
7 Findings Enhancing Few-shot Text-to-SQL Capabilities of Large Language Models: A Study on Prompt Design Strategies
8 Findings Error Detection for Text-to-SQL Semantic Parsing
9 Findings ReFSQL: A Retrieval-Augmentation Framework for Text-to-SQL Generation
10 Findings Selective Demonstrations for Cross-domain Text-to-SQL
11 Findings Semantic Decomposition of Question and SQL for Text-to-SQL Parsing
12 Findings SQLPrompt: In-Context Text-to-SQL with Minimal Labeled Data

因为篇数过多,分为两篇博客记录,本篇为第一篇,首要记录正会论文:

正会论文(Main Conference)

中稿的这5篇正会论文来看,首要仍是围绕着Text-to-SQL的评测、实际体系交互和LLM在Text-to-SQL使命的运用为主。

Benchmarking and Improving Text-to-SQL Generation under Ambiguity

  • 链接:arxiv.org/pdf/2310.13…
  • 摘要:在文本到SQL转化的研讨中,大多数基准测验都是针对每个文本查询对应一个正确的SQL的数据集。但是,现实生活中的数据库上的自然言语查询常常因为形式称号的堆叠和多个令人困惑的联系途径,而触及对预期SQL的明显歧义。为了弥合这一差距,咱们开发了一个名为AmbiQT的新基准,其间包括超越3000个示例,每个文本都能够因为词汇和/或结构上的歧义而被解释为两个合理的SQL。 面临歧义时,抱负的top-k解码器应该生成一切有效的解释,以便用户或许的消歧(Elgohary等,2021年;Zhong等,2022年)。咱们评价了几个文本到SQL体系和解码算法,包括那些运用最先进的大型言语模型(LLMs)的体系,发现它们间隔这一抱负还很远。首要原因是盛行的束查找算法及其变体将SQL查询视为字符串,并在top-k中产生无益的令牌级别多样性。 咱们提出了一种名为LogicalBeam的新解码算法,该算法运用根据方案的模板生成和受限填充的混合办法来导航SQL逻辑空间。逆向生成的方案使模板多样化,而仅在形式称号上分支的束查找填充供给了值多样性。LogicalBeam在生成top-k排名输出中的一切候选SQL方面,比最先进的模型高出2.5倍的效果。它还提高了SPIDER和Kaggle DBQA上的前5名精确匹配和执行匹配精确率。

EMNLP 2023精选:Text-to-SQL使命的前沿发展(上篇)——正会论文解读

  • 关键:首要重视于自然言语到SQL转化时的歧义现象,作者先是自己规划了一个评测基准AmbiQT,然后针对性规划了一种LogicalBeam的新解码算法,改进原有的beam-search带来的token-level的beam差异。

Evaluating Cross-Domain Text-to-SQL Models and Benchmarks

  • 链接:arxiv.org/pdf/2310.18…
  • 摘要:文本到SQL的基准测验在评价该范畴的发展和不同模型的排名方面起着关键作用。但是,因为各种原因,比方自然言语查询的不明确、模型生成的查询和参阅查询中固有的假设、以及在某些条件下SQL输出的非确定性特性,导致基准测验中模型生成的SQL查询与参阅SQL查询的精确匹配失利。在本文中,咱们对几个著名的跨范畴文本到SQL基准测验进行了广泛的研讨,并对这些基准测验中体现最佳的一些模型进行了从头评价,包括手动评价SQL查询和用等效表达式重写它们。咱们的评价提醒,因为能够从供给的样本中得出多种解释,所以在这些基准测验中到达完美体现是不可行的。此外,咱们发现这些模型的实在功能被低估了,并且在从头评价后它们的相对功能发生了改变。最值得注意的是,咱们的评价提醒了一个令人惊奇的发现:在咱们的人类评价中,一种根据最新GPT4模型的模型超越了Spider基准测验中的金标准参阅查询。这一发现突显了谨慎解读基准测验评价的重要性,一起也认识到进行额定独立评价在推动该范畴进步中的关键作用。

EMNLP 2023精选:Text-to-SQL使命的前沿发展(上篇)——正会论文解读

  • 关键:首要讨论了现有Text-to-SQL评测基准中存在的言语不明确、数据值不明确等导致的评价标准失真的现象,作者对部分存在上述问题的Question-SQL Pair进行重写后对现有的一些SOTA模型进行了再评价。

Exploring Chain of Thought Style Prompting for Text-to-SQL

  • 链接:arxiv.org/abs/2305.14…
  • 摘要:运用大型言语模型(LLMs)进行上下文学习因为在各种使命上的卓越的少样本体现,近来引起了越来越多的重视。但是,其在文本到SQL解析上的体现仍有很大的提高空间。在本文中,咱们假设改进LLMs在文本到SQL解析上的一个关键方面是其多步推理才能。因此,咱们体系地研讨了怎么经过思维链(CoT)风格的提示来增强LLMs的推理才能,包括原始的思维链提示(Wei等,2022b)和最少到最多提示(Zhou等,2023)。咱们的试验标明,像Zhou等(2023)中的迭代提示或许对文本到SQL解析来说并不必要,而运用具体的推理步骤往往会有更多的过错传达问题。根据这些发现,咱们提出了一种新的CoT风格的提示办法,用于文本到SQL解析。与不带推理步骤的标准提示办法比较,它在Spider开发集和Spider实在集上别离带来了5.2和6.5点的绝对提高;与最少到最多提示办法比较,别离带来了2.4和1.5点的绝对提高。
  • 关键:本文探究了运用LLM处理Text-to-SQL使命时的Prompt Engineering。作者规划了一种“问题分化”的Prompt格局并结合每个子问题中的表列名进行融合,完成了与RASAT+PICARD模型相当的体现。

EMNLP 2023精选:Text-to-SQL使命的前沿发展(上篇)——正会论文解读

Interactive Text-to-SQL Generation via Editable Step-by-Step Explanations

  • 链接:arxiv.org/abs/2305.07…
  • 摘要:联系数据库在这个大数据年代扮演着重要人物。但是,关于非专家来说,因为他们不熟悉SQL等数据库言语,充分开释联系数据库的剖析才能是具有挑战性的。虽然现已提出了许多技能来自动从自然言语生成SQL,但它们存在两个问题:(1)特别是关于复杂查询,它们仍然会犯许多过错,(2)它们没有为非专家用户供给一种灵敏的办法来验证和批改过错的查询。为了处理这些问题,咱们引入了一种新的交互机制,答应用户直接修改不正确的SQL的逐渐解释来修正SQL过错。在Spider基准测验上的试验标明,咱们的办法在执行精确性方面至少比三种最先进的办法高出31.6%。另外,一项包括24名参与者的用户研讨进一步标明,咱们的办法协助用户在更少的时间内以更高的决心处理了更多的SQL使命,展现了其拓宽数据库访问,特别是关于非专家的潜力。

EMNLP 2023精选:Text-to-SQL使命的前沿发展(上篇)——正会论文解读

  • 关键:提出了一个名为STEPS的交互式文本到SQL体系,答应用户经过直接修改逐渐解释来批改过错的SQL查询。Spider上试验显现,STEPS在提高使命完成速度、精确性和用户自信度方面比较现有办法有明显优势。

Non-Programmers Can Label Programs Indirectly via Active Examples: A Case Study with Text-to-SQL

  • 链接:arxiv.org/abs/2205.12…
  • 摘要:非程序员能否经过自然言语标示来直接地表示其含义的复杂程序?咱们介绍了APEL框架,其间非程序员经过选择由种子语义解析器(例如Codex)生成的候选程序来进行标示。因为他们无法理解这些候选程序,咱们要求他们经过检查程序的输入输出示例来直接选择。关于每个表达,APEL会主动查找一个简略的输入,在此输入上候选程序倾向于产生不同的输出。然后,咱们仅要求非程序员选择适宜的输出,然后推断出哪个程序是正确的,并能够用来微调解析器。作为一个案例研讨,咱们招募了非程序员人类运用APEL从头标示SPIDER,一个文本到SQL数据集。咱们的办法到达了与原始专家标示者相同的标示精确率(75%),并揭露了原始标示中的许多微妙过错。

EMNLP 2023精选:Text-to-SQL使命的前沿发展(上篇)——正会论文解读

  • 关键:本文提出了APEL框架,使非程序员能经过选择候选程序的示例输出来注释文本到SQL的语义。这一办法在文本到SQL数据集SPIDER上到达了与专家相当的注释精确性,并提醒了原始注释中的一些过错。