主页期刊介绍编委会编辑部服务介绍道德声明在线审稿编委办公编辑办公English
2018-2019年专刊出版计划 微信服务介绍 最新一期:2018年第12期
     
在线出版
各期目录
纸质出版
分辑系列
论文检索
论文排行
综述文章
专刊文章
美文分享
各期封面
E-mail Alerts
RSS
旧版入口
中国科学院软件研究所
  
投稿指南 问题解答 下载区 收费标准 在线投稿
丁小欧,王宏志,张笑影,李建中,高宏.数据质量多种性质的关联关系研究.软件学报,2016,27(7):1626-1644
数据质量多种性质的关联关系研究
Association Relationships Study of Multi-Dimensional Data Quality
投稿时间:2015-10-10  修订日期:2016-01-12
DOI:10.13328/j.cnki.jos.005040
中文关键词:  数据质量  数据质量性质  多性质关系  数据清洗  数据管理
英文关键词:data quality  data quality dimension  relationship among dimensions  data cleaning  data management
基金项目:国家重点基础研究发展计划(973)(2012CB316200);国家自然科学基金(U1509216,61472099,61133002);黑龙江省留学回国人员基金(LC2016026)
作者单位E-mail
丁小欧 哈尔滨工业大学 计算机科学与技术学院, 黑龙江 哈尔滨 150001  
王宏志 哈尔滨工业大学 计算机科学与技术学院, 黑龙江 哈尔滨 150001 wangzh@hit.edu.cn 
张笑影 哈尔滨工业大学 计算机科学与技术学院, 黑龙江 哈尔滨 150001  
李建中 哈尔滨工业大学 计算机科学与技术学院, 黑龙江 哈尔滨 150001  
高宏 哈尔滨工业大学 计算机科学与技术学院, 黑龙江 哈尔滨 150001  
摘要点击次数: 2908
全文下载次数: 2012
中文摘要:
      信息化时代数据海量增长的同时,用户需要利用多种指标从不同性质角度对数据质量进行评价和改善.但在目前数据质量管理过程中,影响数据可用性的多种重要因素并非完全孤立,在评估机制和指导数据清洗规则时,彼此会发生关联.研究了在实际信息系统中适用的综合性数据质量评估方法,将文献所提出以及在实际的信息系统中常用的数据质量性质指标按其定义与性质进行了归纳总结,提出了基于性质的数据质量综合评估框架.之后针对影响数据可用性的4个重要性质:精确性、完整性、一致性以及时效性整理出在数据集合上的操作方法,并逐一介绍其违反模式的定义,随后给出其具体关系证明,进而确定数据质量多维关联关系评估策略,并通过实验验证了该策略的有效性.
英文摘要:
      Recently, with the rapid growth of data quantity, users are using a variety of indicators to evaluate and improve the quality of data from different dimensions. During the course of data quality management, it is found that many important factors that influence the data availability are not completely isolated. In the evaluation mechanism which can guide data cleaning rules, these dimensions may be associated with each other. In this paper, serveral data quality dimensions researched in the literature as well as being used in the real information system are discussed, and accordingly the definition and properties of the dimensions are summarized. In addition, a multi-dimensional data quality assessment framework is proposed. According to the four important properties of data availability:Accuracy, completeness, consistency and currency, the operation method and the relationships among them on the data set are constructed. Finally, a multi-dimensional data quality accessment strategy is created. The effctiveness of the proposed strategy is verified by experiments.
HTML  下载PDF全文  查看/发表评论  下载PDF阅读器
 

京公网安备 11040202500064号

主办单位:中国科学院软件研究所 中国计算机学会
编辑部电话:+86-10-62562563 E-mail: jos@iscas.ac.cn
Copyright 中国科学院软件研究所《软件学报》版权所有 All Rights Reserved
本刊全文数据库版权所有,未经许可,不得转载,本刊保留追究法律责任的权利