面向聚合查询的Apache IoTDB物理元数据管理
作者:
作者单位:

作者简介:

赵东明(1998-),男,硕士生,主要研究领域为时序数据库;宋韶旭(1981-),男,博士,副教授,博士生导师,CCF专业会员,主要研究领域为数据库,数据质量,时序数据清理,大数据集成;邱圆辉(2000-),男,硕士生,主要研究领域为时序数据库;黄向东(1989-),男,博士,助理研究员,CCF会员,主要研究领域为工业数据管理,分布式存储系统;康瑞(1998-),男,博士生,主要研究领域为时序数据查询与优化;王建民(1968-),男,博士,教授,博士生导师,CCF高级会员,主要研究领域为数据库,工作流,大数据,知识工程.

通讯作者:

宋韶旭,sxsong@tsinghua.edu.cn

中图分类号:

基金项目:

国家自然科学基金(62072265,62021002);国家重点研发计划(2021YFB3300500,2019YFB1705301,2019YFB1707001);北京信息科学与技术国家研究中心青年创新基金(BNR2022RC01011);工信部2020年新兴平台软件项目


Physical Metadata Management in Apache IoTDB for Aggregate Queries
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    时间序列数据在能源、制造、金融、气候等领域有着广泛应用,聚合查询是相关分析场景中常见的查询需求,快速获取海量数据的概要信息,对于提高数据分析工作的效率具有重要意义.通过存储元数据加速聚合查询是一种有效的提升聚合查询执行效率的手段,但现有的时间序列数据库都使用时间窗口切分数据,需要对数据进行实时排序和分区,难以适应物联网场景下高并发、大吞吐量的数据写入特点.因此,提出了一种面向聚合查询的Apache IoTDB物理元数据管理方案.该方案按照数据文件的物理存储特性切分数据,并结合同步计算和异步计算策略,优先保证数据的写入性能.针对时间序列数据中普遍存在的乱序数据,将时间范围重叠的一组文件抽象为乱序文件组并提供元数据,聚合查询会被重写为3个结合物理元数据和原始数据的子查询高效执行.多个数据集上的实验验证了该方案对聚合查询执行效率的提升效果以及不同计算策略对性能的影响.

    Abstract:

    Timeseries data is widely used in energy, manufacturing, finance, climate and many other fields. Aggregate queries are quite common in timeseries data analysis scenarios to quickly obtain summary of massive data. It is an effective way to accelerating aggregate queries by storing metadata. However, most existing timeseries databases slice data with fixed time windows, which requires real-time sorting and partitioning. In IoT applications with high writing concurrency and throughput, these additional costs are unacceptable. This study proposes a physical metadata management solution in Apache IoTDB for accelerating aggregate queries, in which data are sliced according to the physical storage sharding of files. Both synchronous and asynchronous computing are adopted to ensure writing performance ahead of queries. Out-of-order data streams are another major challenge in IoTDB applications. This study abstracts files with overlapping time ranges into out-of-order file groups and provides metadata for each group. Then aggregate queries will be rewritten into three sub-queries and efficiently executed on physical metadata and timeseries data. Experiments on various datasets have shown the improvement in performance of aggregate queries with the proposed solution, as well as the validity of different computing strategies.

    参考文献
    相似文献
    引证文献
引用本文

赵东明,邱圆辉,康瑞,宋韶旭,黄向东,王建民.面向聚合查询的Apache IoTDB物理元数据管理.软件学报,2023,34(3):1027-1048

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2022-05-15
  • 最后修改日期:2022-07-29
  • 录用日期:
  • 在线发布日期: 2022-10-26
  • 出版日期: 2023-03-06
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号