主页期刊介绍编委会编辑部服务介绍道德声明在线审稿编委办公English
2020-2021年专刊出版计划 微信服务介绍 最新一期:2020年第10期
     
在线出版
各期目录
纸质出版
分辑系列
论文检索
论文排行
综述文章
专刊文章
美文分享
各期封面
E-mail Alerts
RSS
旧版入口
中国科学院软件研究所
  
投稿指南 问题解答 下载区 收费标准 在线投稿
龚奇源,杨明,罗军舟.面向缺失数据的数据匿名方法.软件学报,2013,24(12):2883-2896
面向缺失数据的数据匿名方法
Data Anonymization Approach for Incomplete Microdata
投稿时间:2012-02-21  
DOI:10.3724/SP.J.1001.2013.04411
中文关键词:  数据匿名  缺失数据  聚类  k-匿名
英文关键词:data anonymization  incomplete microdata  clustering  k-anonmity
基金项目:国家自然科学基金(61272054,61202449,61003257,61320106007);国家重点基础研究发展计划(973)(2010CB328104);国家高技术发展计划(863)(2013AA013503);国家科技支撑计划(2010BAI88B03,2011BAK21B02);高等学校博士学科点专项科研基金(20110092130002);江苏省网络与信息安全重点实验室(BM2003201);教育部网络与信息集成重点实验室(93K-9)
作者单位E-mail
龚奇源 东南大学 计算机科学与工程学院, 江苏 南京 211118 gongqiyuan@seu.edu.cn 
杨明 东南大学 计算机科学与工程学院, 江苏 南京 211118  
罗军舟 东南大学 计算机科学与工程学院, 江苏 南京 211118  
摘要点击次数: 2661
全文下载次数: 2180
中文摘要:
      在数据发布过程中,为了防止隐私泄露,需要对数据的准标识符属性进行匿名化,以降低链接攻击风险,实现对数据所有者敏感属性的匿名保护.现有数据匿名方法都建立在数据无缺失的假设基础上,在数据存在缺失的情况下会直接丢弃相关的记录,造成了匿名化前后数据特性不一致.针对缺失数据匿名方法进行研究,基于k-匿名模型提出面向缺失数据的数据匿名方法KAIM(k-anonymity for incomplete mircrodata),在保留包含缺失记录的前提下,使在同一属性上缺失的记录尽量被分配到同一分组参与泛化.该方法将分组泛化前后的信息熵变化作为距离,基于改进的k-member 算法对数据进行聚类分组,最后通过基于泛化层次的局部泛化算法对组内数据进行泛化.实际数据集的大量实验结果表明,KAIM 造成信息缺损仅为现有算法的43.8%,可以最大程度地保障匿名化前后数据特性不变.
英文摘要:
      To protect privacy against linking attacks, quasi-identifier attributes of microdata should be anonymized in privacy preserving data publishing. Although lots of algorithms have been proposed in this area, few of them can handle incomplete microdata. Most existing algorithms simply delete records with missing values, causing large information loss. This paper proposes a novel data anonymization approach called KAIM (k-anonymity for incomplete microdata), for incomplete microdata based on k-member algorithm and information entropy distance. Instead of deleting any records, KAIM effectively clusters records with similar characteristics together to minimize information loss, and then generalizes all records with local recording scheme. Results of extensive experiments base on real dataset show that KAIM causes only 43.8% information loss compared with previous algorithms for incomplete microdata, validating that KAIM performs much better than existing algorithms on the utility of anonymized dataset.
HTML  下载PDF全文  查看/发表评论  下载PDF阅读器
 

京公网安备 11040202500064号

主办单位:中国科学院软件研究所 中国计算机学会 京ICP备05046678号-4
编辑部电话:+86-10-62562563 E-mail: jos@iscas.ac.cn
Copyright 中国科学院软件研究所《软件学报》版权所有 All Rights Reserved
本刊全文数据库版权所有,未经许可,不得转载,本刊保留追究法律责任的权利