面向频繁项集挖掘的本地差分隐私事务数据收集方法
作者:
作者单位:

作者简介:

欧阳佳(1986-),男,博士,讲师,CCF专业会员,主要研究领域为机器学习,数据挖掘,隐私保护,差分隐私.
刘少鹏(1984-),男,博士,讲师,CCF专业会员,主要研究领域为机器学习,数据挖掘,医学图像处理.
印鉴(1968-),男,博士,教授,博士生导师,CCF杰出会员,主要研究领域为数据库与数据挖掘,大数据分析与处理,网络搜索与电子商务,人工智能与机器学习.
梁鹏(1981-),男,博士,副教授,CCF专业会员,主要研究领域为模式识别,机器视觉.
肖政宏(1965-),男,博士,教授,主要研究领域为大数据理论与技术,智能信息处理,机器学习,网络信息安全.
肖茵茵(1983-),女,博士,副教授,主要研究领域为形式化方法,电子商务,信息安全.
赵慧民(1966-),男,博士,教授,博士生导师,主要研究领域为信号与信息处理,多媒体信息安全.

通讯作者:

肖政宏,E-mail:huasxzh@126.com

中图分类号:

TP309

基金项目:

国家自然科学基金(61702119,U1711262,U1501252,U1711261);广州市科技计划(201804010236,201607010152);广东省基础与应用基础研究基金(2019A1515012048);广东省教育厅创新团队项目(2017KCXTD021)


Transaction Data Collection for Itemset Mining Under Local Differential Privacy
Author:
Affiliation:

Fund Project:

National Natural Science Foundation of China (61702119, U1711262, U1501252, U1711261); Science and Technology Program of Guangzhou Municipality (201804010236, 201607010152); Basic and Applied Basic Research Foundation of Guangdong Province (2019A1515012048); Innovation Team Project of Education Department of Guangdong Province (2017KCXTD021)

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    事务数据常见于各种应用场景中,如购物记录、页面浏览历史等.为了提供更好的服务,服务提供商收集用户数据并进行分析,但收集事务数据会泄露用户的隐私信息.为了解决上述问题,基于压缩的本地差分隐私模型,提出一种事务数据收集方法.首先,定义了一种新的候选项集分值函数;其次,基于该函数,将候选项集的样本空间划分为多个子空间;然后,随机选择其中一个子空间,基于该子空间随机生成事务数据并发送给不可信的数据收集者;最后,考虑到隐私参数的设置问题,基于最大后验置信度攻击模型设计启发式隐私参数设置策略.理论分析表明,该方法能够同时保护事务数据的长度与内容,满足压缩的本地差分隐私要求.实验结果表明,与目前最优的工作相比,所收集的数据具有更高的效用性,隐私参数设置更具有语义性.

    Abstract:

    Transaction data is commonly in various application scenarios, such as shopping records, page browsing history, etc., service providers collect and analyze transaction data for providing better services. However, collecting transaction data will disclose privacy information. To solve the problem, this study proposes a transaction data collection mechanism based on condensed local differential privacy (CLDP). Firstly, a new score function of the candidate set is defined. Secondly, the output domain of the candidate set is separated into several subspaces according to the function. Thirdly, the client selects one subspace randomly, and generates transaction data randomly based on the subspace, then, sends it to the untrusted data collector. Finally, considering the difficulty for setting the privacy parameter, the heuristic privacy parameter setting strategy is designed based on the maximum posterior confidence threat model (MPC). The theoretical analysis shows that this method can protect the length and content of transaction data at the same time and satisfies a-CLDP. The experiments demonstrate that the transaction data collected in this study has higher utility than the state-of-the-art approaches, and the privacy parameter setting is semantic.

    参考文献
    相似文献
    引证文献
引用本文

欧阳佳,印鉴,肖政宏,赵慧民,刘少鹏,梁鹏,肖茵茵.面向频繁项集挖掘的本地差分隐私事务数据收集方法.软件学报,2021,32(11):3541-3562

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2019-11-06
  • 最后修改日期:2020-03-09
  • 录用日期:
  • 在线发布日期: 2021-05-21
  • 出版日期: 2021-11-06
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号