基于自然语言的数据库查询生成研究综述
作者:
作者单位:

作者简介:

刘喜平(1981-),男,博士,教授,博士生导师,CCF高级会员,主要研究领域为信息检索,数据库,数据挖掘;舒晴(1990-),女,博士生,CCF学生会员,主要研究领域为机器学习,数据挖掘;何佳壕(1994-),男,硕士生,CCF学生会员,主要研究领域为文本挖掘,数据挖掘;万常选(1962-),男,博士,教授,博士生导师,CCF杰出会员,主要研究领域为Web数据管理,情感分析,数据挖掘,信息检索;刘德喜(1975-),男,博士,教授,博士生导师,CCF高级会员,主要研究领域为社会媒体处理,信息检索,自然语言处理

通讯作者:

刘喜平,E-mail:lewislxp@gmail.com

中图分类号:

基金项目:

国家自然科学基金(62076112,61972184,61762042);江西省自然科学基金(20192BAB207017);江西省教育厅科技项目(GJJ190255,GJJ180234,GJJ190208);江西省研究生创新专项(YC2021-B130)


Survey on Generating Database Queries Based on Natural Language
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    数据库能够提供对大量数据的高效存储和访问,然而查询数据库需要掌握数据库查询语言SQL,对于普通用户而言存在一定的门槛.基于自然语言的数据库查询(即text-to-SQL)在最近几年受到了广泛的关注.对text-to-SQL问题的当前进展进行了系统的分析.首先介绍了问题背景,并对问题进行了描述;其次,重点分析了目前提出的text-to-SQL技术,包括基于流水线的方法、基于统计学习的方法,以及为多轮text-to-SQL而开发的技术,对每种方法都进行了深入的分析和总结.再次,进一步讨论了text-to-SQL所属的语义解析(semantic parsing)这一领域的研究.接着,总结了目前研究中广泛采用的数据集和评价指标,并从多个角度对主流模型进行了比较和分析.最后,总结了text-to-SQL任务面临的挑战,以及未来的研究方向.

    Abstract:

    Database can provide efficient storage and access for massive data. However, it is nontrivial for non-experts to command database query language like SQL, which is essential for querying databases. Hence, querying databases using natural language (i.e., text-to-SQL) has received extensive attention in recent years. This study provides a holistic view of text-to-SQL technologies and elaborates on current advancements. It first introduces the background of the research and describes the research problem. Then the study focuses on the current text-to-SQL technologies, including pipeline-based methods, statistical-learning-based methods, as well as techniques developed for multi-turn text-to-SQL task. The study goes further to discuss the field of semantic parsing to which text-to-SQL belongs. Afterward, it introduces the benchmarks and evaluation metrics that are widely used in the research field. Moreover, it compares and analyzes the state-of-the-art models from multiple perspectives. Finally, the study summarizes the potential challenges for text-to-SQL task, and gives some suggestions for future research.

    参考文献
    相似文献
    引证文献
引用本文

刘喜平,舒晴,何佳壕,万常选,刘德喜.基于自然语言的数据库查询生成研究综述.软件学报,2022,33(11):4107-4136

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2021-04-02
  • 最后修改日期:2021-06-06
  • 录用日期:
  • 在线发布日期: 2021-12-24
  • 出版日期: 2022-11-06
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号