基于时效规则的数据修复方法
作者:
作者单位:

作者简介:

段旭良(1982-),男,河北唐山人,副教授,CCF学生会员,主要研究领域为个人大数据管理,大数据清洗;申云成(1979-),男,副教授,CCF学生会员,主要研究领域为个人大数据,大数据定价;郭兵(1970-),男,博士,教授,博士生导师,CCF高级会员,主要研究领域为大数据管理,嵌入式系统;董祥千(1975-),男,副教授,主要研究领域为嵌入式,个人大数据安全;沈艳(1973-),女,博士,教授,主要研究领域为智能终端,物联网;张洪(1980-),男,副教授,CCF学生会员,主要研究领域为个人大数据管理,数据溯源,计算机网络结构.

通讯作者:

郭兵,E-mail:guobing@scu.edu.cn;沈艳,E-mail:shenyan02@163.com

中图分类号:

基金项目:

国家自然科学基金(61332001,61772352,61472050);四川省科技计划(2019ZDZX0045,2019ZDZX0010,2018ZDZX0010,2017GZDZX0003,2018JY0182)


Data Repair Algorithm Based on Currency Rules
Author:
Affiliation:

Fund Project:

National Natural Science Foundation of China (61332001, 61772352, 61472050); Science and Technology Planning Project of Sichuan Province (2019ZDZX0045, 2019ZDZX0010, 2018ZDZX0010, 2017GZDZX0003, 2018JY0182)

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    数据时效性是影响数据质量的重要因素,可靠的数据时效性对数据检索的精确度、数据分析结论的可信性起到关键作用.数据时效不精确、数据过时等现象给大数据应用带来诸多问题,很大程度上影响着数据价值的发挥.对于缺失了时间戳或者时间不准确的数据,精确恢复其时间戳是困难的,但可以依据一定的规则对其时间先后顺序进行还原恢复,满足数据清洗及各类应用需求.在数据时效性应用需求分析的基础上,首先明确了属性的时效规则相关概念,对属性的时效规则等进行了形式化定义;然后提出了基于图模型的时效规则发现以及数据时序修复算法;随后,对相关算法进行了实现,并在真实数据集上对算法运行效率、修复正确率等进行了测试,分析了影响算法修复数据正确率的一些影响因素,对算法进行了较为全面的分析评价.实验结果表明,算法具有较高的执行效率和较好的时效修复效果.

    Abstract:

    Data currency is an important factor influencing the data quality. The reliability of data currency plays a critical role in data retrieval accuracy and data analysis credibility. Inaccurate data currency and outdated data bring many problems to the application of big data, which greatly affects the exertion of data value. For data that with imprecise time attribute or missing timestamp, exact repair of timestamp is often difficult, but it is possible to restore the currency orders according to specific currency based rules to meet various requirements in data cleaning and applications. Based on the analysis of data currency application requirements, this study first introduces the related concepts of data currency, defines attributes currency-based rules in formal method, and then proposes the currency rules discovery algorithm and the currency repair method. The algorithms efficiency and recovery effect are tested on real dataset, the factors that affect accuracy of the algorithms are analyzed. Experimental results show that the proposed methods are efficient and effective.

    参考文献
    相似文献
    引证文献
引用本文

段旭良,郭兵,沈艳,申云成,董祥千,张洪.基于时效规则的数据修复方法.软件学报,2019,30(3):589-603

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2018-07-19
  • 最后修改日期:2018-09-20
  • 录用日期:
  • 在线发布日期: 2019-03-06
  • 出版日期:
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号