兼顾行列的时序数据质量规则发现技术研究
作者:
作者单位:

作者简介:

通讯作者:

王宏志,E-mail:wangzh@hit.edu.cn

中图分类号:

TP311

基金项目:

国家自然科学基金(62232005,62202126);国家重点研发计划(2021YFB3300502);CCF-华为胡杨林基金数据库专项(CCF-HuaweiDB202204);黑龙江省博士后面上资助(LBH-Z21137)


Time series data quality rules discovery method with both row and column dependencies
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    智能装置设备产生的时序数据增长迅速,存在严重的数据质量问题.劣质时序数据质量管理和数据质量提升技术需求日益迫切.时序数据的有序时窗、行列关联等特点为时序数据质量语义表达提出挑战.本文提出一种同时考虑时序数据在行与列上的数据依赖信息的数据质量规则,即:时序否定约束TDC.本文研究了TDC的定义与构建方法,在时窗与多阶表达式运算这两方面,对已有的数据质量规则体系进行表达力的扩展.并提出针对兼顾行列的时序数据质量规则挖掘方法.在真实时序数据集上开展大量实验,实验结果验证了本方法能够有效且高效地挖掘时序数据中隐藏的数据质量规则,对比实验的结果表明本方法能有效对行与列上的关联信息进行谓词构造,本方法在质量规则挖掘效果上优于单纯的行上约束挖掘方法以及单纯的列上约束挖掘方法.

    Abstract:

    Time series data generated by intelligent devices are growing rapidly and faced with serious data quality problems.The demand for time series data quality management and data quality improvement based on data repairing techniques is increasingly urgent.Time series data has the obvious characteristics about the ordered time window and strong associations between rows and columns.This brings much more challenges for the research of the data quality semantic expression of time series data.This paper proposes the definition and the construction of time series data quality rules,which takes into account the association on both rows and columns.It extends the expression of the existing data quality rule systems in terms of time window and multi-order expression operation.In addition,it proposes the discovery method for time series data quality rules.Experiments have been carried out on real time series data sets and the experimental results verify that the proposed method can effectively and efficiently discover hidden data quality rules from time series data.The experimental results show that the proposed method has higher performance with the predicate construction of associated information on row and column,compared with the existing data quality rule discovery method.

    参考文献
    相似文献
    引证文献
引用本文

丁小欧,李映泽,王晨,王宏志,李昊轩.兼顾行列的时序数据质量规则发现技术研究.软件学报,2023,34(3):0

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2022-05-16
  • 最后修改日期:2022-07-29
  • 录用日期:
  • 在线发布日期: 2022-10-28
  • 出版日期:
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号