混洗差分隐私下的多维类别数据的收集与分析
作者:
作者单位:

作者简介:

刘艺菲(1998-),女,硕士生,主要研究领域为数据隐私保护;
魏志强(1969-),男,博士,教授,CCF高级会员,主要研究领域为智能信息处理,社交媒体以及大数据分析;
王宁(1988-),女,博士,讲师,CCF专业会员,主要研究领域为数据隐私保护,数据管理;
张啸剑(1980-),男,博士,讲师,CCF学生会员,主要研究领域为隐私保护,数据挖掘,图数据管理;
王志刚(1987-),男,博士,副教授,CCF专业会员,主要研究领域为云计算,图数据挖掘;
于戈(1962-),男,博士,教授,博士生导师,CCF会士,主要研究领域为数据库系统,数据科学,大数据技术,区块链技术;
谷峪(1981-),男,博士,副教授,CCF高级会员,主要研究领域为图、空间数据管理.

通讯作者:

王宁,E-mail:wangning8687@ouc.edu.cn

中图分类号:

基金项目:

国家自然科学基金(61902365,61902366,62072156);中央高校基本科研业务费(202042008);中国博士后基金(2019M652473,2019M652474,2020T130623);青岛市自主创新重点研发(20-3-2-12-xx);青岛市博士后应用项目


Collecting and Analyzing Multidimensional Categorical Data Under Shuffled Differential Privacy
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    随着大数据时代的到来,如何在保护用户隐私的前提下完成多维类别数据上的频率分布估计问题成为研究热点.已有的工作主要是基于中心化差分隐私模型或本地化差分隐私模型完成安全算法的设计.鉴于上述两种模型在隐私保护程度或发布结果可用性方面的弊端,基于新兴的混洗差分隐私模型,设计用户数据收集策略,进而提供高安全、高可用的频率分布估计服务.考虑到多维类别属性的多维特征以及不同属性上取值域大小不等的异构特点,从扰动算法以及洗牌方式等角度出发,设计了基于单洗牌者以及多洗牌者的数据发布方案ARR-SS和SRR-MS.此外,结合上述两种方案的优势,通过填补技术消除属性间异构问题,提出了基于取值域填补的单洗牌者数据发布方案PSRR-SS.从理论上分析了3种策略的隐私保护程度以及误差级别,并利用4个真实数据集验证所提出方案在频率估计问题上的有效性.此外,将所提方案作为带噪数据库生成技术的加噪组件,评估随机梯度下降算法在生成带噪数据上的训练结果的可用性.实验结果展现了所提方案优于当前同类算法.

    Abstract:

    The big era is coming with the ever-growing demands on frequency estimation based on sensitive multi-dimensional categorical data. The existing works are devoted to designing privacy protection algorithms based on centralized differential privacy or local differential privacy. However, the above models provide either the weak level of privacy protection or low accuracy of published results. Therefore, standing on the emerging shuffled differential privacy which remedies the above modes, the data collection mechanisms are designed, providing frequency distribution estimation service with high security and high availability. Considering the multi-dimensional characteristics of data and the heterogeneous characteristics existed in different attributes, the mechanisms including SRR-MS with multiple shufflers and ARR-SS with one shuffler are firstly proposed. And then in order to combine the advantages of the above two mechanisms, PSRR-SS with one single shuffler, is proposed to eliminate the heterogeneity among attributes by means of padding dummy values technology to the attribute domains. This study detailedly analyzes the degree of privacy protection and the error level of three strategies theoretically, and evaluates the performance of the proposed mechanisms on frequency estimation by using four real datasets. Besides, the proposals are used as the perturbing component of the techniques generating synthetic data and the training results of stochastic gradient descent are evaluated based on synthetic data. The experimental results show that the proposed method outperforms the existing algorithms.

    参考文献
    相似文献
    引证文献
引用本文

刘艺菲,王宁,王志刚,谷峪,魏志强,张啸剑,于戈.混洗差分隐私下的多维类别数据的收集与分析.软件学报,2022,33(3):1093-1110

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2021-06-30
  • 最后修改日期:2021-07-31
  • 录用日期:
  • 在线发布日期: 2021-10-21
  • 出版日期: 2022-03-06
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号