兼顾行列的时序数据质量规则发现
作者:
作者单位:

作者简介:

丁小欧(1993-),女,博士,助理教授,CCF专业会员,主要研究领域为数据质量,数据清洗,时序数据管理;王宏志(1978-),男,博士,教授,博士生导师,CCF杰出会员,主要研究领域为数据库管理系统,大数据分析与治理;李映泽(2001-),男,本科生,主要研究领域为时序数据质量管理,数据库;李昊轩(2001-),男,本科生,主要研究领域为数据清洗,异常检测,时序数据挖掘;王晨(1981-),男,副研究员,CCF专业会员,主要研究领域为数据库,工业大数据,工业化联网.

通讯作者:

王宏志,wangzh@hit.edu.cn

中图分类号:

基金项目:

国家自然科学基金(62232005,62202126);国家重点研发计划(2021YFB3300502);CCF-华为胡杨林基金数据库专项(CCF-HuaweiDB202204);黑龙江省博士后资助项目(LBH-Z21137)


Time Series Data Quality Rules Discovery with Both Row and Column Dependencies
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    智能装置设备产生的时序数据增长迅速,存在严重的数据质量问题.劣质时序数据质量管理和数据质量提升技术需求日益迫切.时序数据的有序时窗、行列关联等特点,为时序数据质量语义表达提出了挑战.提出了一种同时考虑时序数据在行与列上的数据依赖信息的数据质量规则,即时序否定约束TDC.研究了TDC的定义与构建方法,从时窗与多阶表达式运算这两个方面,对已有的数据质量规则体系进行表达力的扩展,并提出针对兼顾行列的时序数据质量规则挖掘方法.在真实时序数据集上开展大量实验,实验结果验证了该方法能够有效且高效地挖掘时序数据中隐藏的数据质量规则.对比实验的结果表明,该方法能够有效地对行与列上的关联信息进行谓词构造;在质量规则挖掘效果上优于单纯的行上约束挖掘方法以及单纯的列上约束挖掘方法.

    Abstract:

    Time series data generated by intelligent devices are growing rapidly and faced with serious data quality problems. The demand for time series data quality management and data quality improvement based on data repairing techniques is increasingly urgent. Time series data has the obvious characteristics about the ordered time window and strong associations between rows and columns. This brings much more challenges for the research of the data quality semantic expression of time series data. This study proposes the definition and the construction of time series data quality rules, which takes into account the association on both rows and columns. It extends the expression of the existing data quality rule systems in terms of time window and multi-order expression operation. In addition, the discovery method is proposed for time series data quality rules. Experiment results on real time series data sets verify that the proposed method can effectively and efficiently discover hidden data quality rules from time series data, showing that the proposed method has higher performance with the predicate construction of associated information on row and column, compared with the existing data quality rule discovery method.

    参考文献
    相似文献
    引证文献
引用本文

丁小欧,李映泽,王晨,王宏志,李昊轩.兼顾行列的时序数据质量规则发现.软件学报,2023,34(3):1065-1086

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2022-05-16
  • 最后修改日期:2022-07-29
  • 录用日期:
  • 在线发布日期: 2022-10-28
  • 出版日期:
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号