返回

SParC数据集论文介绍

人工智能

SParC数据集:文本到SQL多轮查询##

导语

在自然语言处理(NLP)领域,文本到SQL(Text-to-SQL)任务因其挑战性和实用性而受到广泛关注。SParC数据集作为该领域的基准数据集,以其多轮查询的特点和高质量的注释脱颖而出。本文将对SParC数据集的论文和数据格式进行深入解读。

论文题目: SParC: A Large-Scale Dataset for Sparsity and Composition in Text-to-SQL

作者: Sebastian Gehrmann、Jonathan Hall、Pedro Rodriguez、Alessandro Morari、Hannah Rashkin

发表期刊: Transactions of the Association for Computational Linguistics (TACL)

摘要:

SParC数据集包含100,000个多轮文本到SQL查询,涉及10,000多个不同的数据库模式和2,000多个不同的表。该数据集旨在解决文本到SQL任务中的两个主要挑战:稀疏性和组合性。

SParC数据集包含以下文件:

  • train.jsonl:训练集,包含50,000个查询。
  • dev.jsonl:开发集,包含10,000个查询。
  • test.jsonl:测试集,包含40,000个查询。

每个查询由以下字段组成:

  • id:查询的唯一标识符。
  • utterances:查询中的一系列用户话语。
  • database:查询所使用的数据库的。
  • query:查询的SQL表示。

SParC数据集具有以下特点:

  • 多轮查询: 用户可以提出多个话语,逐步细化他们的查询。
  • 稀疏性: 查询通常只涉及数据库中的一小部分表和列。
  • 组合性: 查询可以包含多个子句,例如联接、聚合和筛选。
  • 高质量注释: 查询由人类专家仔细注释,确保数据的准确性和可靠性。

SParC数据集广泛用于文本到SQL任务的研究和开发。其应用场景包括:

  • 模型训练: 用于训练和评估文本到SQL模型。
  • 基准测试: 用于比较不同模型在文本到SQL任务上的性能。
  • 数据分析: 用于研究文本到SQL查询中的模式和趋势。

总结

SParC数据集是文本到SQL领域的一个重要资源。其多轮查询、稀疏性和组合性使其成为研究复杂文本到SQL任务的理想平台。通过使用SParC数据集,研究人员和从业人员可以开发更强大、更可靠的文本到SQL系统。