Navi:基于自然语言交互的数据分析系统(面向多模态数据的新型数据库技术)
作者:
作者单位:

1.青海大学;2.香港科技大学(广州);3.清华大学

基金项目:

国家自然科学基金项目(面上项目,重点项目,重大项目)


Navi: A Natural Language-powered Data Analytics System
  • 摘要
  • | |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • | |
  • 文章评论
    摘要:

    随着大数据时代的到来,数据分析的作用日益显著,它能够从海量数据中发现有价值的信息,从而更有效地指导用户决策。然而,数据分析流程中存在三大挑战:分析流程高耦合、交互接口种类多和探索分析高耗时。为应对上述挑战,本文提出了基于自然语言交互的数据分析系统Navi,该系统采用模块化的设计原则,抽象出主流数据分析流程的三个核心功能模块:数据查询、可视化生成和可视化探索模块,从而降低系统设计的耦合度。同时,Navi以自然语言作为统一的交互接口,并通过一个任务调度器,实现了各功能模块的有效协同。此外,为了解决可视化探索中搜索空间指数级和用户意图不明确的问题,本文提出了一种基于蒙特卡洛树搜索的可视化自动探索方法,并设计了基于可视化领域知识的剪枝算法和复合奖励函数,提高了搜索效率和结果质量。最后,本文通过量化实验和用户实验验证了Navi的有效性。

    Abstract:

    With the advent of the big data era, data analytics is playing an increasingly important role in discovering valuable information from massive data and guiding users to make better decisions. However, there are three major challenges in the data analytics process: high coupling of analytics workflows, multiple types of interaction interfaces, and high time consumption for exploratory analytics. To address these challenges, we propose Navi, a data analytics system based on natural language interaction. Using modular design principles, Navi abstracts three core functional modules from mainstream data analytics workflows: data query, visualization generation, and visualization exploration, reducing the coupling of system design. Moreover, Navi uses natural language as a unified interface for interaction and enables efficient coordination of various functional modules through a task scheduler. Furthermore, to solve the problems of exponential search space and unclear user intent in visualization exploration, we propose a visualization automatic exploration method based on Monte Carlo tree search and design a pruning algorithm and a composite reward function based on visualization domain knowledge, which improve the search efficiency and result quality. Finally, we validate the effectiveness of the Navi through quantitative experiments and user studies.

    参考文献
    相似文献
    引证文献
引用本文
相关视频

分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2023-07-17
  • 最后修改日期:2023-09-19
  • 录用日期:2023-10-24
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号