主页期刊介绍编委会编辑部服务介绍道德声明在线审稿编委办公编辑办公English
2018-2019年专刊出版计划 微信服务介绍 最新一期:2018年第12期
     
在线出版
各期目录
纸质出版
分辑系列
论文检索
论文排行
综述文章
专刊文章
美文分享
各期封面
E-mail Alerts
RSS
旧版入口
中国科学院软件研究所
  
投稿指南 问题解答 下载区 收费标准 在线投稿
韩姝敏,申德荣,聂铁铮,寇月,于戈.一种基于隐私保护下的多方记录链接方法.软件学报,2017,28(9):2281-2292
一种基于隐私保护下的多方记录链接方法
Multi-Party Privacy-Preserving Record Linkage Approach
投稿时间:2016-07-11  修订日期:2016-11-10
DOI:10.13328/j.cnki.jos.005187
中文关键词:  记录链接  隐私保护  布隆过滤  动态阈值  检查机制  改进的Dice相似度函数
英文关键词:record linkage  privacy-preserving  Bloom filter  dynamic threshold  check mechanism  improved Dice similarity function
基金项目:国家自然科学基金(61472070,61672142);国家重点基础研究发展计划(973)(2012CB316201)
作者单位E-mail
韩姝敏 东北大学 计算机科学与工程学院, 辽宁 沈阳 110819 hanshumin_summer@yeah.net 
申德荣 东北大学 计算机科学与工程学院, 辽宁 沈阳 110819  
聂铁铮 东北大学 计算机科学与工程学院, 辽宁 沈阳 110819  
寇月 东北大学 计算机科学与工程学院, 辽宁 沈阳 110819  
于戈 东北大学 计算机科学与工程学院, 辽宁 沈阳 110819  
摘要点击次数: 1244
全文下载次数: 733
中文摘要:
      多方隐私保护下的记录链接(privacy-preserving record linkage,简称PPRL)是在隐私保护下,从多个数据源中找出代表现实世界中同一实体的过程.该过程除了最终匹配结果被数据源之间共享外,其他信息均未被泄露.随着数据量的日益增大和现实世界数据质量问题的存在(如拼写错误、顺序颠倒等),多方PPRL方法的可扩展性和容错性面临挑战.目前,已有的大部分多方PPRL方法都是精确匹配方法,不具有容错性.还有少部分多方PPRL近似方法具有容错性,但在处理存在质量问题的数据时,由于容错性差和时间代价过大,并不能有效地找出数据源间的共同实体.因此,提出一种结合布隆过滤、安全合计、动态阈值、检查机制和改进的Dice相似度函数的多方PPRL近似方法.首先,利用布隆过滤将各数据源中的每条记录信息转换成由0和1组成的位数组.然后,计算每个对应位置bit 1所占的比率,并利用动态阈值和检查机制来判定匹配成功的位置.最后,通过改进的Dice相似度函数计算出记录间的相似度,进而判断记录间是否匹配成功.实验结果表明:所提出的方法具有较好的可扩展性,并且在保证查准率的同时,比已有的多方近似PPRL方法具有更高的容错性.
英文摘要:
      Multi-party privacy-preserving record linkage is the process of identifying records that correspond to the same real-world entities across several databases without revealing any sensitive information about these entities. With the increasing amount of data and the real-world data quality issues (such as spelling errors and wrong order), scalability and fault tolerance of PPRL have become the main challenges. At present, most of the existing multi-party PPRL methods apply exact match without fault-tolerant. There are a few other PPRL approximate methods with fault-tolerant, but when dealing with the existing data quality issues, due to the low fault-tolerance and high time cost, they cannot effectively find out the common entities between databases. To tackle this issue, this paper proposes a multi-party PPRL approximate approach combined with bloom filter, secure summation, dynamic threshold, check mechanism, and improved Dice similarity function. First, bloom filter is used to convert each record in the databases to an array of 1 and 0. Then, ratio of bit 1 is calculated for each corresponding position, and dynamic threshold and check mechanism are used to determine matched position.Finally, the similarity between records is calculated by improved Dice similarity function to judge whether records are matched. Experimental results show the proposed method has good scalability and higher fault tolerance than the existing multi-party PPRL approximate method with good precision.
HTML  下载PDF全文  查看/发表评论  下载PDF阅读器
 

京公网安备 11040202500064号

主办单位:中国科学院软件研究所 中国计算机学会
编辑部电话:+86-10-62562563 E-mail: jos@iscas.ac.cn
Copyright 中国科学院软件研究所《软件学报》版权所有 All Rights Reserved
本刊全文数据库版权所有,未经许可,不得转载,本刊保留追究法律责任的权利