大数据时代丰富的信息来源促进了机器学习技术的蓬勃发展,然而机器学习模型的训练集在数据采集、模型训练等各个环节中存在的隐私泄露风险,为人工智能环境下的数据管理提出了重大挑战.传统数据管理中的隐私保护方法无法满足机器学习中多个环节、多种场景下的隐私保护要求.分析并展望了机器学习技术中隐私攻击与防御的研究进展和趋势.首先介绍了机器学习中隐私泄露的场景和隐私攻击的敌手模型,并根据攻击者策略分类梳理了机器学习中隐私攻击的最新研究;介绍了当前机器学习隐私保护的主流基础技术,进一步分析了各技术在保护机器学习训练集隐私时面临的关键问题,重点分类总结了5种防御策略以及具体防御机制;最后展望了机器学习技术中隐私防御机制的未来方向和挑战.
In the era of big data, a rich source of data prompts the development of machine learning technology. However, risks of privacy leakage of models' training data in data collecting and training stages pose essential challenges to data management in the artificial intelligence age. Traditional privacy preserving methods of data management and analysis could not satisfy the complex privacy problems in various stages and scenarios of machine learning. This study surveys the state-of-the-art works of privacy attacks and defenses in machine learning. On the one hand, scenarios of privacy leakage and adversarial models of privacy attacks are illustrated. Also, specific works of privacy attacks are classified with respect to adversarial strategies. On the other hand, 3 main technologies which are commonly applied in privacy preserving of machine learning are introduced and key problems of their applications are pointed out. In addition, 5 defense strategies and corresponding specific mechanisms are elaborated. Finally, future works and challenges of privacy preserving in machine learning are concluded.
机器学习作为人工智能的核心技术, 旨在从数据中学习经验、构建模型, 并逐步提升模型的精确程度.随着深度学习等突破性技术的兴起, 机器学习迎来了阶段性的发展, 得到了学界和产业界的密切关注, 并在智慧医疗、商品推荐、人脸识别、网络安全、证券市场分析等各个领域得到广泛应用.
海量数据为机器学习模型提供丰富的训练数据来源, 但其中不可避免地包含用户的隐私信息, 机器学习中的隐私泄漏以及泄露造成的危害不可忽视, 例如:医疗专家基于病人的数据构建了预测病情的模型, 攻击者通过隐私攻击可以推断出训练集中病人的数据, 甚至DNA信息, 进而利用这些信息有针对性地犯罪; 攻击者还可以预测某个人的数据是否在目标模型的训练集中, 进而泄露个人的患病信息并引发歧视问题.同时, 机器学习中的隐私泄露还会造成服务商的重大损失:使服务商在面临巨额赔偿风险的同时失去用户信任.更严重的情况下, 不法分子将利用泄露的训练数据或模型信息, 对机器学习系统进行安全攻击, 进而干预模型的预测.
丰富多样的机器学习场景进一步提升了训练集隐私泄露的风险:目前逐步成熟的机器学习云服务MlaaS (machine learning as a service)中, 云端首先收集用户数据并训练模型, 最终将训练好的模型接口提供给用户调用, 或者提供模型参数以便用户下载.此过程需要用户将数据发送至不可信云平台, 因此数据收集阶段就存在隐私泄露风险; 即使云平台可信, 如果训练好的模型接口被销售给第三方, 或者被嵌入移动应用端以供所有用户访问, 不可信第三方可以在预测阶段通过隐私攻击[
为了更好地构建人工智能环境下的数据管理标准, 机器学习技术应当在保证用户隐私、合理正确使用数据的前提下发展.但是, 面向传统数据收集和发布的隐私保护方法已不能适用于机器学习的保护需求, 机器学习中存在的隐私泄露为采集、存储、分析等数据管理环节提出了新的挑战.其原因主要来自以下两方面.
● 首先, 在使用训练数据构建机器学习模型的过程中出现了不同于传统数据收集与发布的特殊环节, 这些特殊环节带来了新的隐私攻击机制.例如:在模型训练阶段, 不可信的服务器或者参与者可以利用训练的中间结果构建攻击模型以侵犯用户隐私; 在模型预测阶段, 即使服务商没有发布模型参数, 不可信攻击者也可以通过不断访问模型预测接口的方式窃取目标训练集的数据隐私.另外, 深度学习模型的不可解释性也为防御此类攻击带来了难题;
● 其次, 多样的机器学习场景对隐私保护提出了高效性和可用性的要求.例如:云平台提供MLaaS服务的初衷是提供模型参数或者访问接口供用户使用, 因此从可用性角度需要确保目标模型的预测准确率; 协同训练中不仅需要保证训练模型的预测准确率, 还需要在通信开销以及计算开销方面保证训练过程的高效性.机器学习隐私保护中对高效性及可用性的要求比传统数据管理中更加复杂和严苛, 因此亟需设计针对机器学习的隐私保护方案.
总体而言, 本文综述机器学习技术中隐私攻击和隐私保护的最新研究进展和研究方向.一方面从“矛”的角度:第1节概述机器学习中的隐私泄露背景, 首先明确攻击场景并阐述敌手假设, 将隐私攻击者从敌手目标、敌手知识、敌手能力、敌手策略等4个角度进行抽象和建模.第2节基于攻击策略对现有隐私攻击进行分类阐述, 重点介绍隐私攻击的适用范围、攻击模型.另一方面, 从“盾”的角度:第3节介绍用于保护机器学习训练集隐私的主流技术, 包括差分隐私(differential privacy)、同态加密、安全多方计算, 阐明其基础定义、实现机制, 并讨论这些技术应用于机器学习隐私保护时的关键问题.第4节重点对现有隐私防御方案进行分类梳理, 按照防御思路总结为扰动策略、泛化策略、近似策略、对抗策略、本地策略等5类, 并列举具体机制的相关研究.第5节针对机器学习中隐私保护问题的关键, 总结评价现有工作并展望未来的研究方向.最后, 第6节总结全文.
机器学习中数据收集、模型训练、模型预测等环节紧密结合, 共同构成机器学习系统的闭环.在探讨机器学习中的隐私攻击和防御之前, 明确泄露发生的场景、掌握攻击者的背景将有助于进一步理解隐私攻击、设计防御方案.本节首先对隐私攻击的场景进行分类, 接着从敌手目标、敌手知识、敌手能力、敌手策略等4个方面阐述机器学习中的敌手模型.
攻击场景是指机器学习中可能造成隐私泄露的环节, 是攻击者进行隐私攻击的突破口, 是设计防御方案必须要明确的背景之一.目前, 研究机器学习隐私泄露问题的必要性来源于:(1)训练数据集中有敏感信息; (2)机器学习训练或者预测阶段存在不可信参与方.如今机器学习模型的构建需要海量的训练数据, 而且用户对个人敏感数据的定义范围很广, 训练或预测数据中包含敏感信息是十分普遍的情况.下面介绍现有机器学习的两大类场景, 并重点对不可信参与方的情况展开讨论.
集中式学习是指由中心服务器完成数据收集、模型训练、模型预测等流程的机器学习方式, 其中, 用户的原始数据存放与于中心服务器, 中心服务器和模型访问者是用户的不可信第三方.
在数据收集阶段, 虽然已有法律[
在模型预测阶段, 隐私威胁来源于不可信第三方对模型的访问请求.集中式学习的中心服务商得到训练完毕的模型之后, 通过直接在用户端部署或者提供MLaaS平台的API访问接口这两种方式发布模型, 因此, 模型的发布对象可能是不可信的用户移动端或者购买模型接口的不可信第三方, 如
集中式学习中的隐私泄露-模型发布阶段
Privacy leakage of centralized learning in predicting stage
联合式学习即多个数据所有者在不向中心服务器上传本地数据的前提下, 共同学习同一目标模型, 以实现移动端计算或者数据共享的需求.此时, 攻击者可能是中心服务器或者是任意一个训练参与方.联合学习中没有数据收集阶段, 各方保留本地数据且独立地参与模型训练.现有的联合学习中隐私攻击的研究主要集中在模型训练阶段.
敌手模型刻画了隐私攻击的假设背景, 是设计防御机制的首要假设.下面将从敌手目标、敌手知识、敌手能力、敌手策略这4个方面[
敌手模型
Adversarial model
攻击阶段 | 敌手目标 | 敌手知识 | 敌手能力 | 敌手策略 |
数据收集阶段 | 机密性 | - | 直接获取数据 | - |
训练阶段 | 白盒/黑盒 | 训练过程干预训练训练阶段收集中间结果 | 模型倒推 | |
成员推断 | ||||
预测阶段 | 访问模型/提取其他辅助信息 | 成员推断 | ||
模型倒推 | ||||
黑盒 | 模型参数提取 |
机密性与完整性、可用性一同构成机器学习模型的评价指标, 机密性威胁是指攻击者获取模型或模型训练集数据的隐私信息; 完整性威胁是指攻击者有目的性地诱导模型的输出结果; 可用性威胁是指攻击者阻止或妨碍普通用户对模型的正常请求.隐私攻击中的敌手目标是模型的机密性.
从被攻击的具体效果来看, 敌手目标大致可以分为以下3个方面.
(1) 判断某条个人数据是否在目标模型的训练集中.例如:目标模型是基于癌症患者的基因数据训练的, 一旦攻击者判断出某条数据存在于训练集, 则可推断该条数据拥有者的患癌情况;
(2) 推断训练数据中某列或若干列的敏感属性值.例如:训练集是基因数据, 且若干基因序列和疾病直接相关, 一旦攻击者掌握相关背景知识, 并通过隐私攻击推断出目标攻击对象的敏感基因序列, 则会侵犯患者隐私;
(3) 重建分类模型训练集中某一类数据.若目标模型为人脸识别模型, 攻击者通过隐私攻击可重建出某人的人脸图片, 从而将该个体的姓名和外貌联系起来, 侵犯个人隐私.
现有的隐私攻击中, 目标模型主要为监督学习, 并涵盖判别模型和生成模型两大类.判别模型是指由数据学习联合概率分布
敌手知识是指攻击者掌握的关于目标模型的背景知识, 包括模型训练集的分布假设、其他辅助统计信息、模型结构和参数、决策函数等.其中, 是否掌握模型结构和参数, 是决定攻击方式和攻击力度的关键.因此, 本文将攻击者掌握模型结构和参数的隐私攻击划分为白盒攻击, 将攻击者没有掌握模型结构和参数的攻击划分为黑盒攻击.具体攻击方案中, 对攻击者知识的假设有可能介于两者之间, 例如:攻击者掌握模型的结构, 不知道模型的参数.并且具体攻击中可以先提升攻击者背景, 再发起隐私攻击.例如:有研究[
黑盒攻击下敌手知识最弱, 因此如果某一模型的训练集隐私能被黑盒攻击窃取, 则该模型的隐私防御能力很弱, 在面对白盒攻击时更容易泄露训练集隐私.白盒攻击下敌手知识较强, 因此如果某一模型能抵御白盒攻击, 则该模型的防御能力很强, 且能抵御同类的黑盒攻击.
敌手能力是指攻击者对目标模型的操作权限.在机器学习的数据收集阶段, 敌手能力指直接获取数据; 在机器学习的训练阶段, 敌手能力包括干预模型训练、收集中间结果的能力; 在机器学习的预测阶段, 敌手能力是指访问模型、提取模型或部分数据等辅助信息的能力.
根据攻击者的介入能力, 可以将隐私攻击分为主动攻击和被动攻击:主动攻击中, 攻击者的敌手能力包括参与模型的训练, 甚至恶意使用特定策略诱导目标模型泄露更多信息; 被动攻击中, 对敌手能力的假设控制在不影响模型完整性和可用性的范围内, 即攻击者不直接参与模型训练, 而是通过访问模型、观察输出、获取辅助信息等方式达到攻击目的.
敌手目标、敌手知识、敌手能力这三者共同决定了攻击者采取的敌手策略.除了数据收集阶段直接获取数据的方式, 敌手策略可分为:
(1) 直接攻击:攻击者构建攻击模型直接攻击目标模型的训练集数据隐私, 包括判断某个用户数据是否在训练集中以及倒推用户数据;
(2) 间接攻击:首先构建攻击模型窃取模型参数, 利用该参数作为直接攻击训练集数据的背景知识, 增大攻击模型训练集成功率, 进一步攻击机器学习模型训练集.
具体而言, 现有3种具体的策略:成员推断攻击、模型倒推攻击和模型参数提取攻击.成员推断攻击和模型倒推攻击为直接攻击策略, 提取模型参数为间接攻击策略.
面对上述不同场景、不同敌手模型下机器学习技术中存在的威胁, 诸多研究通过设计攻击模型证实了机器学习中隐私威胁的破坏力, 典型攻击的研究成果总结见
机器学习中典型隐私攻击
Classic privacy attacks in machine learning
敌手知识 | 敌手能力 | 敌手策略 | 敌手目标 | ||||||||
模型结构 | 模型参数 | 类型 | 请求模型 | 训练模型 | 设计模型 | 模式 | 具体策略 | 类型 | 模型类型 | 场景类型 | |
Shokri, 2017[ |
√ | × | 黑盒 | √ | × | × | 被动 | 成员推断 | 直接攻击 | 神经网络 | 集中式 |
× | × | √ | × | × | 任意模型 | ||||||
Nasr, 2019[ |
√ | √ | 白盒 | √ | × | × | 被动 | 神经网络 | 集中式 | ||
√ | √ | √ | √ | × | 联合式 | ||||||
√ | √ | √ | √ | × | 主动 | ||||||
Hayes, 2017[ |
× | × | 黑盒 | √ | × | × | 被动 | GAN/VAE | 集中式 | ||
√ | √ | 白盒 | √ | × | × | GAN | |||||
Fredrikson, 2014[ |
√ | × | 黑盒 | √ | × | × | 被动 | 模型倒推 | 线性回归 | 集中式 | |
Fredrikson, 2015[ |
√ | × | 黑盒 | √ | × | × | 被动 | 决策树 | 集中式 | ||
√ | √ | 白盒 | √ | × | × | ||||||
√ | √ | √ | × | × | 神经网络 | ||||||
√ | × | 黑盒 | √ | × | × | ||||||
Hitaj, 2017[ |
√ | √ | 白盒 | √ | √ | × | 主动 | 联合式 | |||
Wang, 2019[ |
√ | √ | 白盒 | √ | √ | √ | 主动 | 联合式 | |||
√ | √ | √ | √ | × | 被动 | ||||||
Song, 2017[ |
√ | √ | 白盒 | √ | √ | √ | 主动 | 集中式 | |||
√ | × | 黑盒 | √ | √ | √ | ||||||
Tramèr, 2017[ |
√ | × | 黑盒 | √ | × | × | 被动 | 参数提取 | 间接攻击 | 逻辑回归决策树SVM神经网络 | 集中式 |
成员推断攻击是指攻击者试图判断某条个人信息是否存在于目标模型的训练数据集.当训练数据包含医疗数据等敏感信息, 数据的拥有者并不想暴露个人数据在特定训练集中存在与否, 然而成员推断攻击泄露了这类隐私.
Shokri等人[
成员推断攻击举例[
An example of membership inference[
另外, 文献[
上述攻击利用了目标模型泛化能力有限这一缺点, 而判断一个模型是否容易受到成员推断攻击不仅仅受到模型泛化能力这一个因素的影响.对于泛化能力相对较好的神经网络模型, Nasr等人[
以上研究的目标模型聚焦于集中式学习的判别模型, 在联合式学习中, 也存在成员推断攻击.Nasr等人[
上述研究攻击的目标模型均为判别模型, 因此模型在训练集和测试集上表现的差异可以通过模型输出的置信度衡量.但是在生成模型中, 并不容易判断模型是否过拟合, 因而也不容易发现生成模型是否存在成员隐私泄露的风险.Hayes等人[
模型倒推是指通过模型的输出反推训练集中某条目标数据的部分或全部属性值, 本文中, 此概念包含部分研究提到的属性推断及模型重建.
当攻击者采取被动攻击的方式, 在不干预模型训练过程的情况下进行模型倒推, 其基本思路是找到使输出中某一类对应的可能性最大的输入.Fredrikson等人[
Fredrikson等人[
模型倒推攻击举例[
An example of model inversion[
上述攻击方法采用的是被动策略, 如果攻击者采取主动策略直接干扰模型训练过程, 攻击者将对目标模型拥有更大的掌控权.Hitaj等人[
上述隐私攻击并没有影响模型的可用性和完整性, 如果模型算法的设计是恶意, 不仅会暴露更多、更准确的训练集的信息, 还将破坏完整性和可用性.Song等人[
模型参数提取是指当目标模型参数不公开, 攻击者已知部分模型结构信息和标签信息, 试图通过访问目标模型得到模型参数的攻击.总体而言, 攻击者发起模型参数提取的动机包括:避免向模型训练服务缴费; 规避恶意邮件分类等模型的检测, 发起安全攻击; 掌握模型参数之后, 增加对模型训练集的攻击成功率.前两者均为机器学习技术在模型安全层面需要讨论的问题, 本文提到的模型参数提取主要关注的是第3点, 即训练集数据隐私的问题.
Tramer等人[
参数提取攻击举例[
An example of model extraction attack[
测试误差的含义是测试集
另外, 成员推断攻击和模型倒推攻击也有着紧密的关联.Long等人[
为应对上述隐私攻击, 目前已有很多研究对机器学习中的隐私防御方案进行讨论, 其中, 主流的三大类技术分别是差分隐私、同态加密、安全多方计算.不同背景下的不同防御方案都基于这3种技术展开, 为方便后续介绍具体防御方案, 本节将分别介绍这3种技术的基础定义、实现机制以及应用在机器学习模型中的关键问题.
差分隐私使得某一条数据是否在数据集中, 几乎不影响算法的计算结果, 其定义如下.
则称算法
由于在数据采集过程中就存在用户隐私数据被窃取的风险, 无需任何可信方的本地化差分隐私技术也逐步成为近年的研究热点.在本地化模型中, 每个用户对即将上传至服务器的数据或者中间结果进行扰动, 因此避免了服务器直接收集或接触到本地原始数据, 同时还能完成对总体数据的统计分析.本地化差分隐私定义如下:
差分隐私中主要存在两种直接添加噪声的方法:拉普拉斯机制(Laplace mechanism)[
本地化差分隐私的实现方法主要基于随机扰动(randomized response)[
差分隐私技术通过严格的隐私定义[
差分隐私防御模型倒推攻击举例[
Example of how differential privacy defends model inversion attack[
差分隐私和成员攻击的定义都与攻击者推断出一条数据是否存在于模型训练集的可能性直接相关, 因此, 差分隐私的隐私开销直接决定了防御成员推断攻击的效果.当前, 关于成员推断攻击的研究[
在机器学习模型中实际部署差分隐私技术并不会带来过多额外的计算开销, Wu等人[
(1) 需重新设计已有系统或者算法.除了在模型输出中添加扰动以外, 其他在目标函数以及参数或梯度上添加噪声的方法都需要修改机器学习的内部算法;
(2) 为算法调试带来困难.差分隐私算法会引入额外的超参数, 增加了机器学习模型的算法调试工作量.
同态加密是一种允许用户对密文进行特定代数运算并得到密文结果的加密形式, 保护了数据存储以及运算过程中的数据隐私.其同态的含义在于:对用户在密文上进行代数运算的结果解密后, 与其在明文上进行相同计算得到的结果相同.密码体系中的安全基础是计算困难问题, 同态加密通常基于的计算困难问题包括整数分解问题、离散对数问题、判定合数剩余问题、近似最大公因子问题、系数子集求和问题、二次剩余问题等.根据在加密状态下可以完成的操作, 可将同态加密技术分为加法同态、乘法同态以及全同态[
目前有许多同态加密的实现机制:RSA机制[
(1) 同态加法特性:
(2) 同态乘法特性:
同态加密技术可以在密文上完成运算的特性使其可以应用于服务商与用户的交互, 例如在集中式学习中, 用户将数据以密文形式上传至服务器, 服务器训练模型的同时并不知道原始训练集的数据因而保护了用户数据隐私; 在联合学习中, 各个参与者将模型参数或者梯度以密文的形式上传至服务器, 服务器在不知道每个参与者真实的上传内容的同时完成参数汇总与总体模型迭代, 保护了用户的中间计算结果, 因而保护了用户原始数据的隐私.
虽然理论上全同态加密可以进行任意计算, 但是目前, 该方案在机器学习领域的应用存在诸多约束, 例如: (1)机器学习模型训练过程中涉及的数据和参数通常是浮点数的形式, 而同态加密算法只支持整数类型的数
据[
安全多方计算是一种无需可信第三方参与即可协助多方完成密文计算的技术, 其形式化定义如下.
由于安全多方计算中各个参与方有可能不按照协议的规则来执行, 甚至在计算过程中输入虚假信息, 因此各个参与方根据其表现可分为:
(1) 诚实参与方:在协议中完全按照约定的协议完成运算, 对自己所有的输入和得到的输出信息保密;
(2) 半诚实参与方:完全按照协议规则执行, 但是可能将自己的输入以及得到的输出结果泄露给攻击者;
(3) 恶意参与方:按照攻击者的角度执行协议, 不但泄露自己所有的输入/输出信息, 并且有可能改变输入或者篡改中间输出信息甚至终止协议.
安全多方计算的构造需要使用基本的密码学工具, 包括秘密共享、同态加密、零知识证明、不经意传输等等.下面简要介绍几种常用于机器学习隐私保护的实现机制.
(1) 秘密共享[
(2) 同态加密[
(3) 零知识证明[
安全多方计算应可以用于保护集中式机器学习模型的训练过程, 例如多方的数据和模型初始参数基于秘密共享协议, 以秘密的形式存储在两个不共谋的服务器上, 随后, 这两个服务器通过两方安全协议完成模型的训练.由于其中两个服务器各自拥有一部分的秘密, 在不共谋的情况下无法得知用户数据以及模型参数的明文, 因此保护了用户隐私.另外, 安全多方计算主要用于保护联合式机器学习模型的构建, 如在没有服务器参与的情况下, 各参与方通过交换中间计算结果的密文完成训练, 其中需要用到加解密技术完成明密文转换, 或者用零知识证明技术验证数据的一致性.
安全多方计算是多种密码学基础工具的综合应用, 因此密码学理论为其提供了强大的安全保证, 但是由于在实现安全多方计算时广泛应用了同态加密技术, 因此, 第3.2.3节中提到的同态加密技术在机器学习上面临的挑战也是安全多方计算保护机器学习隐私的瓶颈.在实际部署中, 基于混淆电路技术的安全多方计算方案一般应用于两至三方完成模型训练的场景, 基于秘密共享技术的安全多方计算方案可以扩展至数以百计的用户.但是用户数量的增长将会为安全多方协议带来大量额外的通信开销, 例如, Bonawitz等人[
目前, 已有诸多研究应用和扩展了上述3种技术, 探索了机器学习中隐私攻击的防御方法, 本节将现有隐私防御方案分类总结为5种策略和若干机制, 并在
机器学习中典型隐私防御方法
Classic privacy defenses in machine learning
文献 | 策略 | 机制 | 技术 | 保护目标 | 防御阶段 | 防御场景 |
Meng, 2018[ |
扰动策略 | 扰动目标函数 | 差分隐私 | 矩阵分解训练集 | 训练/预测阶段 | 联合分布式 |
Chaudhuri, 2011[ |
凸模型训练集 | 预测阶段 | 集中式 | |||
Abadi, 2016[ |
扰动中间参数 | 神经网络训练集 | ||||
Bassily, 2014[ |
凸模型训练集 | |||||
Wu, 2017[ |
扰动输出 | |||||
Li, 2014[ |
近似策略 | 数值近似 | 原始训练数据 | 数据收集之后 | 任意 | |
Acs, 2017[ |
||||||
Bindschaedler, 2017[ |
||||||
Hesamifard, 2017[ |
函数近似 | 同态加密 | 神经网络训练集 | 训练阶段 | 集中式 | |
Fredikson, 2015[ |
泛化策略 | 泛化输出 | 无 | 任意模型训练集 | 预测阶段 | |
Shokri, 2017[ |
泛化模型 | L2正则化 | 分类模型训练集 | 集中式/成员推断 | ||
Nasr, 2018[ |
对抗策略 | 正则化 | 生成对抗 | |||
Huang, 2018[ |
对抗扰动 | 对抗学习 | 与训练集关联的原始敏感数据 | 数据收集之后 | 集中式 | |
Jia, 2018[ |
分布式 | |||||
Hamm, 2015[ |
本地策略 | 标签集成 | 差分隐私 | 分类模型训练集 | 训练/预测阶段 | 联合分布式 |
Papernot, 2017[ |
差分隐私知识迁移 | |||||
Papernot, 2018[ |
||||||
Mohassel, 2017[ |
安全多方 | 同态加密安全协议 | 任意模型训练集 | 训练阶段 | ||
Zheng, 2019[ |
线性模型训练集 | |||||
Geyer, 2017[ |
联合学习 | 差分隐私 | 任意模型训练集 | 预测阶段 | ||
McMahan, 2017[ |
神经网络训练集 | |||||
Shokri, 2015[ |
训练阶段 | |||||
Bonawits, 2017[ |
安全协议 | |||||
Wang, 2019[ |
本地化差分 | 任意模型训练集 | 训练/预测阶段 |
扰动策略是指在目标函数、中间参数或者输出结果中添加噪声扰动, 以提高模型防御能力的方法.例如:本文
扰动目标函数机制是指直接在机器学习模型的目标函数中添加噪声扰动, 并最小化此目标函数的方法[
求解模型参数的过程即是对公式(7)最小化的过程.Chaudhuri等人[
扰动中间参数机制是指在优化目标函数的迭代过程中, 在参数的梯度上添加噪声以达到扰动效果的方法.这种扰动机制得益于差分隐私技术的组合理论以及McSherry等人[
扰动中间参数时, 根据梯度裁剪的大小, 设置并添加噪声向量
Abadi等人[
扰动输出机制来源于Dwork等人[
然后, 利用Laplace机制或指数机制在参数向量
例如:文献[
本文将近似策略划分为两种机制:基于差分隐私的数据近似机制、基于同态加密的函数近似机制.通过近似数据, 目标模型训练集数据在使用之前已经达到隐私保护的要求, 则即使攻击者攻击成功, 也无法侵犯用户隐私.通过近似函数, 可在密文上计算机器学习模型中加密方案无法计算的函数, 从而完成模型训练并保护隐私.
数据近似机制指使用原始数据的近似数据作为训练集的一类方法.数据提供者通过传统概率统计以及机器学习中的工具生成满足源数据集统计特征的虚假数据, 随后交由不可信第三方用于训练模型或者数据分析.
数值近似的方式之一是使用原始数据构建统计模型, 并以差分隐私的规则发布数据.
Machanavajjhala等人[
数值近似的另一种方式是使用机器学习中的生成对抗模型(generative adversarial network)生成数据, 并在训练过程中基于Abadi等人[
第3种数据近似方式:首先生成数据, 测试数据的隐私完备性后, 仅发布满足隐私要求的数据.已有研究[
则发布记录
上述工作中, 生成数据的隐私性通过隐私参数度量, 可用性根据具体需求主要从以下若干方面进行衡量.
(1) 生成数据的直观质量.例如, 图片数据的质量可以直观地根据生成图片的质量判定;
(2) 计数统计的准确率.计数统计是很多数据分析和学习算法的基础, 因此可以作为衡量标准之一;
(3) 生成数据分布与原数据分布之间的距离.例如
(4) 人造数据训练的分类模型的准确率.
在使用同态加密技术保护机器学习隐私安全的过程中, 通常用仅含有加法和乘法的表达式替换一些不便于加密计算的非线性函数, 如
激活函数的替代表示[
Replacement of activation function[
目前有研究在模型预测阶段应用函数近似机制, 例如, Dowlin等人[
为了保证训练集隐私, 需要对原始训练数据加密并在密文数据上训练模型.
Hesamifard等人[
泛化意为由具体的、个别的扩展为一般的, 本文将泛化策略分为泛化输出机制以及泛化模型机制两类:模型输出的泛化是指降低模型输出结果的精度; 模型的泛化是指通过正则化等手段消除模型在训练集和非训练集的表现差异.
泛化输出机制是一种简单初级的防御手段, 例如分类模型的输出是一个以分类个数为维度的置信度向量, 每个分量代表将输入数据预测为对应类的概率, 其中概率最高的一类为预测结果, 泛化输出是指降低输出置信度的精度.
Fredrikson等人[
泛化输出机制效果小结
Summary of effects of output generalization mechanism
限制前 | 限制后 | 攻击 | 攻击类型 | 目标模型 | 限制效果 |
精度0.1 | 精度0.001 | Shokri, 2017[ |
成员推断攻击 | MLaaS | 攻击准确率下降0.03% |
维度3 | 维度1 | Shokri, 2017[ |
成员推断攻击 | MLaaS | 攻击准确率下降0.03% |
精度10-6 | 精度0.05 | Fredikson, 2014[ |
模型倒推攻击(黑盒) | 神经网络 | 不能还原出训练集人脸图片 |
精度10-6 | 精度10-3 | Tramer, 2016[ |
参数提取攻击 | 逻辑回归 | 攻击错误率增加10倍 |
精度10-6 | 精度10-2 | Tramer, 2016[ |
参数提取攻击 | 决策树 | 没有影响 |
以上基于泛化输出机制的方法在实际使用中都具有很大的局限性:一方面, 用户对精度有要求; 另一方面, 就算用户对输出结果的精度和维度要求不高, 模型在这种情况下仍有可能被攻击, 攻击者只是需要更多的请求次数.实际应用中, 不同MLaaS平台面向的用户群体对输出精度和维度的要求不一样, 因此各平台在为不同用户提供服务时, 应该针对用户群的需求提供相应的服务, 并对可能造成的隐私泄露风险做出提示.
一个模型泛化效果不好是指其在训练集上的表现和在非训练集上的表现存在较大差异, 成员推断攻击[
诸多研究都在关注过拟合和攻击的关系, Shokri等人[
Yoem等人[
模型设计者面对的问题是如何防御任何可能存在的隐私攻击, 但是穷尽任何可能的攻击形式是不现实的.因此, 利用游戏理论以及对抗思想构建和优化数据隐私问题受到很多研究者的关注.这类研究[
对抗策略下的正则化机制是指以对抗的方式正则化模型, 以防御模型发布之后预测阶段的隐私攻击.Nasr等人[
对抗策略-正则化机制[
Adversarial generalization mechanism[
对抗策略下的扰动机制是指通过对抗的思想在原始数据中添加噪声, 以保证发布数据可用性和隐私之间的平衡, 属于数据收集阶段的隐私保护机制.有的研究利用对抗学习模拟博弈过程, Huang等人[
同时, 攻击者基于决策规则
为了量化攻击者的威胁, 定义如下损失函数:
数据拥有者希望得到一个隐私机制
但是, 基于博弈理论防御属性推断攻击的隐私保护机制通常难以优化.为了解决这个问题, 一些研究[
将数据拥有者的数据保持在本地是一种最简单直观的隐私保护方法, 本文将采用此思路的方法归类为本地策略.为了利用存储在用户本地的数据完成训练机器学习模型的任务, 数据拥有者与模型训练者需要保持一定的交互, 根据交互方式的不同, 以下分为标签集成机制、安全多方机制以及联合学习机制.
标签集成机制借鉴了集成学习的思想, 把用户拥有的数据作为总体数据的子集并在各子集上分别训练模型, 随后, 中心服务器使用公开的无标签数据作为输入, 请求本地模型获取标签并对输出结果进行汇总, 得到带标签的训练集, 最终在该训练集上完成总体模型的训练.以上流程中, 不同的研究添加隐私保护机制的环节各不相同.
Hamm等人[
为了进一步保护隐私, 另一类研究在集成输出结果的环节添加隐私保护机制.Papernot等人[
本地策略-标签集成机制[
Local label aggregation mechanism[
在上述工作的基础之上, 研究者[
标签集成机制的优势在于该方法并不需要损失函数以及优化方法假设, 然而为了降低差分隐私中的噪声敏感度, 基于单一模型的扰动输出机制(见第4.1.3节)和扰动目标函数机制(见第4.1.1节)都需要相关假设.并且这种机制中将单一数据拥有者隐藏在多方之中, 攻击者只能获得对攻击目标的相对粗糙的估计, 因此可以抵御模型发布之后的隐私威胁.
安全多方训练机制意为借助安全多方计算协议构造支持多方共同训练机器学习模型的方法, 其中关键在于:(1)需要选用合适的基础密码学工具以保证安全性; (2)重构非线性函数, 对机器学习模型中的非线性函数设计高效的替代表达式.
早期的研究已将安全多方计算用于决策树[
基于two-server架构是大多数[
(1) 离线阶段:所有用户拥有的训练数据以秘密共享的形式一次性存放在两个服务器中, 并按照小批量划分训练数据, 服务器计算在线阶段所需要的乘法三元组;
(2) 在线阶段:两个服务器以小批量的形式分别在训练数据的秘密共享上完成随机梯度下降.训练完毕之后, 通过秘密共享协议的解密操作得到最终的模型.
他们使用了秘密共享、同态加密、不经意传输等基础密码学工具, 分别对线性回归、逻辑回归、神经网络这3种模型提出了高效的两方安全计算协议, 并且用截断的方式解决了之前研究中两方安全计算中小数计算的瓶颈; 同时, 在计算乘法运算三元组时通过向量化的技术提升了算法效率.最终, 比之前的工作[
基于
上述两个研究的区别在于:
(1) 架构不同;
(2) 解决的优化问题不同:SecureML是集中式机器学习中梯度下降优化算法的安全两方计算版本, 而Helen是分布式机器学习中交替方向乘子法的安全多方计算版本.
联合学习一词由Google正式提出[
Geyer等人[
对于服务器不可信的问题, Shokri等人[
另外, 近年来, 本地化差分研究逐步成为研究的热点, 为服务器不可信的场景提供了解决方案.Wang等人[
隐私防御策略之间的关联关系
Connections of different privacy defense strategies
其中, 主要的7大结论如下.
(1) 扰动目标函数机制与正则化机制类似, 都在目标模型训练的目标函数中添加了一项.其中的区别在于:扰动目标函数机制中添加的一项是基于差分隐私需要添加的噪声量确定的; 而在对抗策略的正则化机制中, 添加的是根据攻击者增益得到的正则项, 与差分隐私的定义无关;
(2) 扰动输出机制可用于联合学习中服务器发布模型的过程中, 并以此防御观察全局模型参数并试图攻击其他用户的攻击者;
(3) 扰动中间参数机制也可用于联合学习服务器迭代全局模型的过程中, 以此防御来自用户的攻击;
(4) 对抗策略下的扰动机制属于数值近似的一种方式, 对抗的思想可使近似数据能更好地权衡隐私性和可用性;
(5) 函数近似机制在安全多方机制中有广泛的用途, 常用于在密文上进行非线性函数运算的过程中;
(6) 泛化输出策略和标签集成策略的核心思想都是对模型的预测输出进行处理, 区别在于泛化输出机制是降低输出置信度的精度, 标签集成机制则是对预测标签进行模糊处理;
(7) 对抗策略中的正则化机制实质上是一种泛化模型的方法, 对抗的过程是为了控制泛化强度, 权衡隐私与可用性.
总体而言, 扰动策略作为差分隐私技术的典型应用, 可用于其他基于差分隐私的防御方案中.对抗策略作为一种特殊的防御思路, 可以为泛化策略和近似策略提供更好的隐私性与可用性之间的权衡.本地策略作为一种新兴的方式, 可以广泛地借鉴其他防御机制.
不同于传统数据管理中的隐私问题, 机器学习中新的攻击机制与严苛多样的需求对隐私保护领域提出了新的挑战.目前, 相关研究尚处于起步阶段, 下面将结合现有研究阐述机器学习中的隐私保护存在的问题和未来的研究方向.
隐私保护技术对于机器学习而言是一把双刃剑, 一方面保护了模型训练集的隐私, 另一方面降低了模型效率和可用性.面对机器学习中丰富的隐私信息以及变化多端的场景, 突破隐私性、高效性、可用性相互矛盾制约的瓶颈成为了无本之木.
隐私保护机制对效率的影响体现在计算开销和通信代价两个方面.
(1) 计算开销来源于隐私算法或协议中的额外计算:差分隐私拥有较低的计算开销; 而同态加密技术和安全多方计算技术由于引入了密文运算, 计算开销不可忽视.目前为止, 这两种技术不能应用于复杂的机器学习模型;
(2) 通信代价来自于联合分布式训练过程中用户与服务器之间的交互, 与传统分布式训练过程相比, 使用差分隐私进行隐私保护并不会带来额外的通信代价, 使用本地化差分保护用户梯度甚至会减小通信代价; 而安全多方计算技术则存在参与方信息不对称、通信次数较多、通信开销庞大的特点.
现有的大多数隐私保护技术都会损失一部分模型可用性:
(1) 基于差分隐私的防御方法在原始数据或模型上添加了扰动, 因此大多数情况下, 隐私性越强, 可用性越差.不过从模型泛化的角度看, 模型的准确性和隐私性之间的取舍并不绝对, 提高模型对单条数据的泛化能力不仅能解决模型的过拟合问题, 提升模型在测试集上的表现, 还能降低受到成员推断攻击和模型倒推攻击的风险;
(2) 基于同态加密的防御法方法中, 近似或者扰动也会降低可用性, 比如为了便于密文运算, 用多项式近似非线性函数; 为了便于构造同态特性, 基于理想格的全同态加密方案在加密时添加了噪声;
(3) 安全多方计算中同样存在密文上的近似问题, 为了完成小数计算, 可能会采用数值截断的方法.
为了平衡三者之间相互制约的矛盾, 可以从以下4个方面开展工作.
(1) 建立隐私机制评估体系, 从隐私性、高效性、可用性对机器学习中的隐私保护机制进行多维度评价, 为三者之间的权衡提供客观全面的度量;
(2) 根据不同应用场景的需求进行自适应的动态调整, 以参数形式刻画影响某一方面的变量, 在不同模型、不同攻击方式下对三者之间的关系进行建模, 实现三者在不同应用场景下的权衡最优化;
(3) 根据需求改进过于严格的隐私理论, 提出更贴近实际可用性的可缩放的隐私理论;
(4) 加深学习理论的研究, 寻找三方面之间的受益共同点(比如避免模型过拟合), 共同提升隐私算法在多方面的特性.
隐私保护必将损失部分模型可用性和效率, 对于用户个体而言这意味着牺牲部分服务质量以换取隐私保护.然而机器学习训练集中隐私保护需求存在巨大差异, 对所有用户的所有数据统一进行隐私保护是不合理的, 实现个性化度量和按需保护是十分关键的问题.
这种隐私需求的差异表现在横向和纵向两个方面, 假设一个有
(1) 横向隐私需求差异性:训练集中不同数据拥有者具有不同的隐私保护需求, 例如用户
(2) 纵向隐私需求差异性:用户
然而这种差异为机器学习中的隐私保护带来了巨大挑战:横向隐私需求差异要求机器学习在保护不同用户个性化隐私的同时提供具有差异性的服务质量, 纵向隐私需求差异要求机器学习在保护不同属性个性化隐私的同时保证模型的可用性.
未来的研究可以从如下方面开展.
(1) 隐私预算的个性化分配.基于差分隐私的隐私保护机制中, 可以用隐私预算度量隐私保护强度, 大多数现有方法面对隐私预算分配问题时仅仅采用平均分摊的方式, 因而横向或纵向地个性化分配差分隐私中的隐私预算是未来的方向;
(2) 不同隐私保护数据之间的相互补充.对于存在横向隐私需求差异的机器学习场景, 可以使用隐私保护强度小的数据对隐私保护强度大的数据进行扩充, 从而在保护个性化隐私的同时最大化模型可用性的极限;
(3) 隐私需求的动态感知.用户隐私需求随着机器学习模型的应用场景等因素发生动态变化, 而用户不可能定期设置的自己的隐私需求, 因此可以使用机器学习作为工具挖掘用户隐私行为和数据之间的关联, 动态地预测用户的隐私需求.
隐私保护研究的出发点是使用更可靠的隐私保护技术为用户数据保驾护航, 进而消除数据孤岛, 为机器学习技术真正的落地和发展做充分的准备.本文第4节中提及的基于本地策略的隐私保护方案就是一种既能保护隐私又能满足多方数据共享这一现实需求的方法, 因此, 多方数据共享、协同训练是未来机器学习隐私保护的必然趋势, 控制跨数据源训练的共享与交换, 成为了机器学习隐私保护的重要挑战.
但是目前的相关研究都基于一些非常理想的假设:标签集成机制中, 本地模型的结构可以不同, 但是本地训练数据的形式必须是一致的; 普通的联合学习机制中要求本地模型和全局模型的结构和输入数据形式都是一致的.然而实际应用中, 参与方的数据结构不一定和总体模型要求的一致, 如果从特征、标签、用户id这3个维度构建机器学习训练数据, 数据的多样性存在于以下几种情况:
(1) 水平分割.比如不同城市的两家银行, 他们的业务类型类似, 也就是两方数据的特征和标签一致, 但是用户id不一致;
(2) 垂直分割.比如同一个城市的一家医院和一家保险公司, 两方数据的特征仅有少部分重合, 标签也不一致, 但是用户id基本一致, 因为该城市的居民通常既去过这家医院也在这家保险公司购买服务;
(3) 混合分割, 即不同城市的不同类型组织之间的数据, 特征、标签和用户id均不一致的情况.
另外, 多个参与方本地的模型也存在多样性, 比如银行A基于本地数据训练的是信贷风险预测模型, 银行B基于本地数据训练的是投资受益模型.
因此, 如何解决多方跨数据源训练中数据形式多样性和模型多样性成为了关键问题.未来的工作可以从以下方面开展:(1)使用迁移学习[
目前, 很多数据都可以用图结构的数据存储和分析, 例如由人和人之间的关系构成社交网络、生物领域蛋白质之间的互相作用网络、用户与商品构成的推荐系统网络等.近年来, 图神经网络的提出加速了图结构数据上的机器学习进展, 并在文本分类、序列标注、关系抽取、事件抽取、视觉推理等方面得以广泛应用.已有工作[
现有机器学习中的隐私保护机制主要是围绕以关系型数据为训练集的模型, 然而此类保护关系型数据训练集的隐私保护机制不能为图结构训练集提供隐私保护, 原因如下:
(1) 新的背景知识.现有保护关系型数据训练集的隐私防御仅考虑了成员信息、属性信息作为攻击者的背景知识, 而图结构数据中隐私攻击者可能掌握图结构、节点信息、边信息等背景知识, 因此敌手模型更为复杂;
(2) 新的保护对象.图结构数据中, 新的隐私保护对象包括节点隐私、边隐私和图性质隐私.其中, 节点隐私还可以细分为存在性、再识别性、属性值、图结构, 边隐私还可以细分为存在性、再识别性、权重、属性值.现有成员推断攻击将会攻击其存在性, 模型倒推攻击将会攻击其属性值等信息;
(3) 新的可用性挑战.图数据中, 节点并不是独立存在的而是相互关联的, 如果直接简单应用已有的机器学习隐私保护方法, 例如基于差分隐私添加随机噪声, 将会破坏复杂性和节点之间的关系, 从而极大地损失图数据的可用性.
为了实现以图结构数据为训练集的机器学习模型中的隐私保护, 未来的工作可以从以下方面开展:(1)深入探究面向图结构数据隐私分析基础理论, 构建适合图结构数据的动态隐私度量模型和形式化描述方法;
(2) 改进已有防御策略和机制, 本文提及的扰动策略、对抗策略、本地策略、泛化策略、近似策略都是当前机器学习中隐私保护方法的高度抽象, 因此未来可以将此类策略迁移至图结构数据训练集的隐私保护中, 并基于图数据隐私的特殊性质改进优化.
海量的数据、丰富的场景催生了机器学习技术的蓬勃发展, 然而成员推断攻击、模型倒推攻击、参数提取攻击揭露了机器学习模型的隐私漏洞, 为数据管理和人工智能标准的制定带来了巨大挑战.
本文在充分调研和深入分析的机制之上, 描述了攻击场景、敌手模型等背景知识, 细致地归纳分析了隐私攻击和隐私保护的最新研究, 对机器学习中的隐私保护方法进行凝练和抽象, 并指出了当前机器学习中的隐私保护存在的问题, 探讨了未来的研究方向.总之, 机器学习中的隐私保护要随着机器学习技术的进步而发展, 现有的诸多关键问题和挑战仍需进一步研究.
Shokri R, Stronati M, Song C, Shmatikov V. Membership inference attacks against machine learning models. In: Proc. of the Security & Privacy. 2017.
Wang Z, Song M, Zhang Z, Song, Y, Wang Q, Qi H. Beyond inferring class representatives:User-level privacy leakage from federated learning. In:Proc. of the IEEE INFOCOM 2019-IEEE Conf. on Computer Communications. IEEE, 2019. 2512-2520.
Nasr M, Shokri R, Houmansadr A. Comprehensive privacy analysis of deep learning: Passive and active white-box inference attacks against centralized and federated learning. In: Proc. of the Security & Privacy. 2019.
Hitaj B, Ateniese G, Perez-Cruz F. Deep models under the GAN: Information leakage from collaborative deep learning. In: Proc. of the 2017 ACM SIGSAC Conf. on Computer and Communications Security. ACM, 2017.
https://gdpr-info.eu/]]>
Erlingsson Ú, Pihur V, Korolova A. Rappor: Randomized aggregatable privacy-preserving ordinal response. In: Proc. of the 2014 ACM SIGSAC Conf. on Computer and Communications Security. ACM, 2014.
https://machinelearning.apple.com/2017/12/06/learning-with-privacy-at-scale.html]]>
Song C, Ristenpart T, Shmatikov V. Machine learning models that remember too much. In:Proc. of the 2017 ACM SIGSAC Conf. on Computer and Communications Security. ACM, 2017. 587-601.
Barreno M, Nelson B, Sears R, Joseph AD, Tygar JD. Can machine learning be secure? In:Proc. of the 2006 ACM Symp. on Information, Computer and Communications Security. ACM, 2006. 16-25.
Hayes J, Melis L, Danezis G, De Cristofaro E. LOGAN: Evaluating privacy leakage of generative models using generative adversarial networks. arXiv preprint arXiv: 1705.07663, 2017.
Fredrikson M, Lantz E, Jha S, Lin S, Page D, Ristenpart T. Privacy in pharmacogenetics: An end-to-end case study of personalized warfarin dosing. In: Proc. of the UNIX Security Symp. 2014..
Fredrikson M, Jha S, Ristenpart T. Model inversion attacks that exploit confidence information and basic countermeasures. In:Proc. of the 22nd ACM SIGSAC Conf. on Computer and Communications Security. 2015. 1322-1333.
Tramèr F, Zhang F, Juels A, Reiter MK, Ristenpart T. Stealing machine learning models via prediction APIs. In:Proc. of the USENIX Security Symp. 2016. 601-618.
Ateniese G, Felici G, Mancini LV, Spognardi A, Villani A, Vitali D. Hacking smart machines with smarter ones:How to extract meaningful data from machine learning classifiers. Int'l Journal of Security and Networks, 2015, 10(3):137-150.
Robert C. Machine Learning, A Probabilistic Perspective. 2014.
Long Y, Bindschaedler V, Wang L, Bu D, Wang X, Tang H, Chen K. Understanding membership inferences on well-generalized learning models. arXiv preprint arXiv: 1802.04889.
Yeom S, Giacomelli I, Fredrikson M, Jha S. Privacy risk in machine learning:Analyzing the connection to overfitting. In:Proc. of the 2018 IEEE 31st Computer Security Foundations Symp. 2018. 268-282.
Dwork C, McSherry F, Nissim K, Smith A. Calibrating noise to sensitivity in private data analysis. In:Proc. of the Theory of Cryptography Conf. Springer, Berlin, Heidelberg, 2006. 265-284.
Duchi JC, Jordan MI, Wainwright MJ. Local privacy and statistical minimax rates. Annual IEEE Symp. on Foundations of Computer Science, 2013. 429-438.
Nikolov A, Talwar K, Zhang L. The geometry of differential privacy:The sparse and approximate cases. In:Proc. of the 45th Annual ACM Symp. on Theory of Computing. ACM, 2013. 351-360.
McSherry F, Talwar K. Mechanism design via differential privacy. In:Proc. of the IEEE Symp. on Foundations of Computer Science. 2007. 94-103.
Warner SL. Randomized response:A survey technique for eliminating evasive answer bias. Journal of the American Statistical Association, 1965, 60(309):63-69.
http://www.jos.org.cn/1000-9825/5364.htm[doi:10.13328/j.cnki.jos.005364]]]>
http://www.jos.org.cn/1000-9825/5364.htm[doi:10.13328/j.cnki.jos.005364]]]>
Dwork C, Smith A, Steinke T, Ullman J. Exposed! A survey of attacks on private data. Annual Review of Statistics and Its Application, 2017, 4:61-84.
Acs G, Melis L, Castelluccia C, De Cristofaro E. Differentially private mixture of generative neural networks. IEEE Trans. on Knowledge and Data Engineering, 2018, 31(6):1109-1121.
Xie L, Lin K, Wang S, Wang F, Zhou J. Differentially private generative adversarial network. arXiv preprint arXiv: 1802.06739, 2018.
Bindschaedler V, Shokri R. Synthesizing plausible privacy-preserving location traces. In:Proc. of the 2016 IEEE Symp. on Security and Privacy (SP). IEEE, 2016. 546-563.
Chaudhuri K, Monteleoni C, Sarwate AD. Differentially private empirical risk minimization. Journal of Machine Learning Research, 2011, 12:1069-1109.
Abadi M, Chu A, Goodfellow I, McMahan HB, Mironov I, Talwar K, Zhang L. Deep learning with differential privacy. In:Proc. of the 2016 ACM SIGSAC Conf. on Computer and Communications Security. ACM, 2016. 308-318.
Wang N, Xiao X, Yang Y, Zhao J, Hui SC, Shin H, Yu G. Collecting and analyzing multidimensional data with local differential privacy. In:Proc. of the 2019 IEEE 35th Int'l Conf. on Data Engineering (ICDE). IEEE, 2019. 638-649.
McMahan HB, Ramage D, Talwar K, Zhang L. Learning differentially private recurrent language models. arXiv preprint arXiv: 1710.06963, 2017.
Shokri R, Shmatikov V. Privacy-Preserving deep learning. In:Proc. of the 22nd ACM SIGSAC Conf. on Computer and Communications Security. ACM, 2015. 1310-1321.
Wang Y, Si C, Wu X. Regression model fitting under differential privacy and model inversion attack. In: Proc. of the 24th Int'l Joint Conf. on Artificial Intelligence. 2015.
Wu X, Li F, Kumar A, Chaudhuri K, Jha S, Naughton J. Bolt-on differential privacy for scalable stochastic gradient descent-based analytics. In:Proc. of the 2017 ACM Int'l Conf. on Management of Data. ACM, 2017. 1307-1322.
Zhang J, Zhang Z, Xiao X, Yang Y, Winslett M. Functional mechanism:Regression analysis under differential privacy. Proc. of the VLDB Endowment, 2012, 5(11):1364-1375.
Jagannathan G, Pillaipakkamnatt K, Wright RN. A practical differentially private random decision tree classifier. In:Proc. of the 2009 IEEE Int'l Conf. on Data Mining Workshops. IEEE, 2009. 114-121.
Papernot N, Abadi M, Erlingsson U, Goodfellow I, Talwar K. Semi-Supervised knowledge transfer for deep learning from private training data. In: Proc. of the 6th Int'l Conf. on Learning Representations. 2017.
Nasr M, Shokri R, Houmansadr A. Machine learning with membership privacy using adversarial regularization. In:Proc. of the 2018 ACM SIGSAC Conf. on Computer and Communications Security. ACM, 2018. 634-646.
Rivest RL, Adleman L, Dertouzos ML. On data banks and privacy homomorphisms. Foundations of Secure Computation, 1978, 4(11):169-180.
ElGamal T. A public key cryptosystem and a signature scheme based on discrete logarithms. IEEE Trans. on Information Theory, 1985, 31(4):469-472.
Paillier P. Public-Key cryptosystems based on composite degree residuosity classes. In:Proc. of the Int'l Conf. on the Theory and Applications of Cryptographic Techniques. Berlin, Heidelberg:Springer-Verlag, 1999. 223-238.
Mohassel P, Zhang Y. SecureML:A system for scalable privacy-preserving machine learning. In:Proc. of the 2017 IEEE Symp. on Security and Privacy (SP). IEEE, 2017. 19-38.
Orlandi C, Piva A, Barni M. Oblivious neural network computing via homomorphic encryption. EURASIP Journal on Information Security, 2007(1):037343.
Van Dijk M, Gentry C, Halevi S, Vaikuntanathan V. Fully homomorphic encryption over the integers. In:Proc. of the Annual Int'l Conf. on the Theory and Applications of Cryptographic Techniques. Berlin, Heidelberg:Springer-Verlag, 2010. 24-43.
Brakerski Z, Vaikuntanathan V. Fully homomorphic encryption from ring-LWE and security for key dependent messages. In:Proc. of the Annual Cryptology Conf. Berlin, Heidelberg:Springer-Verlag, 2011. 505-524.
Brakerski Z, Gentry C, Vaikuntanathan V. (Leveled) fully homomorphic encryption without bootstrapping. ACM Trans. on Computation Theory, 2014, 6(3):13.
Hesamifard E, Takabi H, Ghasemi M, Jones C. Privacy-Preserving machine learning in cloud. In:Proc. of the 2017 on Cloud Computing Security Workshop. ACM, 2017. 39-43.
Goldreich O, Warning A. Secure multi-party computation. In:Proc. of the Information Security & Communications Privacy. 2014.
Shamir A. How to share a secret. Communications of the ACM, 1979, 22(11):612-613.
Fousse L, Lafourcade P, Alnuaimi M. Benaloh's dense probabilistic encryption revisited. In:Proc. of the Int'l Conf. on Cryptology in Africa. Berlin, Heidelberg:Springer-Verlag, 2011. 348-362.
Goldwasser S, Micali S, Rackoff C. The knowledge complexity of interactive proof systems. SIAM Journal on Computing, 1989, 18(1):186-208.
Bonawitz K, Ivanov V, Kreuter B, et al. Practical secure aggregation for privacy-preserving machine learning. In:Proc. of the 2017 ACM SIGSAC Conf. on Computer and Communications Security. ACM, 2017. 1175-1191.
Nikolaenko V, Weinsberg U, Ioannidis S, Joye M, Boneh D, Taft N. Privacy-Preserving ridge regression on hundreds of millions of records. In:Proc. of the 2013 IEEE Symp. on Security and Privacy. IEEE, 2013. 334-348.
Gascón A, Schoppmann P, Balle B, Raykova M, Doerner J, Zahur S, Evans D. Privacy-Preserving distributed linear regression on high-dimensional data. Proc. on Privacy Enhancing Technologies, 2017, 2017(4):345-364.
Meng X, Wang S, Shu K, Li J, Chen B, Liu H, Zhang Y. Personalized privacy-preserving social recommendation. In: Proc. of the 32nd AAAI Conf. on Artificial Intelligence. 2018.
Bassily R, Smith A, Thakurta A. Private empirical risk minimization:Efficient algorithms and tight error bounds. In:Proc. of the 2014 IEEE 55th Annual Symp. on Foundations of Computer Science. IEEE, 2014. 464-473.
Li H, Xiong L, Jiang X. Differentially private synthesization of multi-dimensional data using copula function. In: Proc. of the Advances in Database Technology-Int'l Conf. on Extending Database Technology. NIH Public Access, 2014. 475.
Bindschaedler V, Shokri R, Gunter CA. Plausible deniability for privacy-preserving data synthesis. Proc. of the VLDB Endowment, 2017, 10(5):481-492.
Huang C, Kairouz P, Chen X, Sankar L, Rajagopal R. Generative adversarial privacy. In: Proc. of the ACM, ICML Privacy in Machine Learning and Artificial Intelligence Workshop. 2018.
Jia J, Gong NZ. Attriguard:A practical defense against attribute inference attacks via adversarial machine learning. In:Proc. of the 27th USENIX Security Symp. 2018. 513-529.
Hamm J, Cao Y, Belkin M. Learning privately from multiparty data. In:Proc. of the Int'l Conf. on Machine Learning. 2016. 555-563.
Papernot N, Song S, Mironov I, Raghunathan A, Talwar K, Erlingsson U. Scalable private learning with PATE. In: Proc. of the 6th Int'l Conf. on Learning Representations. Vancouver, 2018.
Zheng W, Popa RA, Gonzalez JE, Stoica I. Helen: Maliciously secure coopetitive learning for linear models. In: Proc. of the 2019 IEEE Symp. on Security and Privacy (SP). IEEE, 2019.
Geyer RC, Klein T, Nabi M. Differentially private federated learning: A client level perspective. arXiv preprint arXiv: 1712.07557, 2017.
Chaudhuri K, Monteleoni C. Privacy-Preserving logistic regression. In:Proc. of the Advances in Neural Information Processing Systems. 2009. 289-296.
Mcsherry FD. Privacy integrated queries:An extensible platform for privacy-preserving data analysis. In:Proc. of the 2009 ACM SIGMOD Int'l Conf. on Management of Data. ACM, 2009. 19-30.
Mir DJ, Wright RN. A differentially private graph estimator. In:Proc. of the 2009 IEEE Int'l Conf. on Data Mining Workshops. IEEE, 2009. 122-129.
Sala A, Zhao X, Wilson C, Zheng H, Zhao BY. Sharing graphs using differentially private graph models. In:Proc. of the 2011 ACM SIGCOMM Conf. on Internet Measurement Conf. ACM, 2011. 81-98.
Chaudhuri K, Sarwate AD, Sinha K. A near-optimal algorithm for differentially-private principal components. The Journal of Machine Learning Research, 2013, 14(1):2905-2943.
Machanavajjhala A, Kifer D, Abowd J, Gehrke J, Vilhuber L. Privacy:Theory meets practice on the map. In:Proc. of the 2008 IEEE 24th Int'l Conf. on Data Engineering. 2008. 277-286.
Beaulieu-Jones BK, Wu ZS, Williams C, Lee R, Bhavnani SP, Byrd JB, Greene CS. Privacy-Preserving generative deep neural networks support clinical data sharing. Cardiovascular Quality and Outcomes, 2019, 12(7):e005122.
Odena A, Olah C, Shlens J. Conditional image synthesis with auxiliary classifier GANs. In:Proc. of the 34th Int'l Conf. on Machine Learning-Vol.70. JMLR.org, 2017. 2642-2651.
Reiter JP, Mitra R. Estimating risks of identification disclosure in partially synthetic data. Journal of Privacy and Confidentiality, 2009, 1(1).
Dowlin N, Gilad-Bachrach R, Laine K, Lauter K, Naehrig M, Wernsing J. Cryptonets:Applying neural networks to encrypted data with high throughput and accuracy. In:Proc. of the Int'l Conf. on Machine Learning. 2016. 201-210.
Wu S, Teruya T, Kawamoto J. Privacy-Preservation for stochastic gradient descent application to secure logistic regression. In: Proc. of the 27th Annual Conf. of the Japanese Society for Artificial Intelligence. 3L1-OS-06a-3. 2013.
AlvimM S, Chatzikokolakis K, Kawamoto Y, Palamidessi C. Information leakage games. In:Proc. of the Int'l Conf. on Decision and Game Theory for Security. Cham:Springer-Valag, 2017. 437-457.
Manshaei MH, Zhu Q, Alpcan T, Bacşar T, Hubaux JP. Game theory meets network security and privacy. ACM Computing Surveys (CSUR), 2013, 45(3):25.
Shokri R. Privacy games:Optimal user-centric data obfuscation. Proc. of the Privacy Enhancing Technologies, 2015, 2015(2):299-315.
Shokri R, Theodorakopoulos G, Troncoso C, Hubaux JP, Le Boudec JY. Protecting location privacy:Optimal strategy against localization attacks. In:Proc. of the 2012 ACM Conf. on Computer and Communications Security. ACM, 2012. 617-627.
Weinsberg U, Bhagat S, Ioannidis S, Taft N. BlurMe:Inferring and obfuscating user gender based on ratings. In:Proc. of the 6th ACM Conf. on Recommender Systems. ACM, 2012. 195-202.
Heatherly R, Kantarcioglu M, Thuraisingham B. Preventing private information inference attacks on social networks. IEEE Trans. on Knowledge and Data Engineering, 2012, 25(8):1849-1862.
Chen T, Boreli R, Kaafar MA, Friedman A. On the effectiveness of obfuscation techniques in online social networks. In:Proc. of the Int'l Symp. on Privacy Enhancing Technologies Symp. Cham:Springer-Verlag, 2014. 42-62.
Salamatian S, Zhang A, du Pin Calmon F, Bhamidipati S, Fawaz N, Kveton B, Taft N. Managing your private and public data:Bringing down inference attacks against your privacy. IEEE Journal of Selected Topics in Signal Processing, 2015, 9(7):1240-1255.
Breiman L. Bagging predictors. Machine Learning, 1996, 24(2):123-140.
Mironov I. Rényi differential privacy. In:Proc. of the 2017 IEEE 30th Computer Security Foundations Symp. IEEE, 2017. 263-275.
Lindell Y, Pinkas B. Privacy preserving data mining. In: Bellare M, ed. Proc. of the Advances in Cryptology-CRYPTO 2000. LNCS 1880, Berlin, Heidelberg: Springer-Verlag, 2000.
Bunn P, Ostrovsky R. Secure two-party k-means clustering. In:Proc. of the 14th ACM Conf. on Computer and Communications Security. ACM, 2007. 486-497.
Vaidya J, Yu H, Jiang X. Privacy-Preserving SVM classification. Knowledge and Information Systems, 2008, 14(2):161-178.
Sanil AP, Karr AF, Lin X, Reiter JP. Privacy preserving regression modelling via distributed computation. In:Proc. of the 10th ACM SIGKDD Int'l Conf. on Knowledge Discovery and Data Mining. ACM, 2004. 677-682.
Huai M, Huang L, Wei Y, Lu L, Qi M. Privacy-Preserving naive bayes classification. In: Proc. of the Int'l Conf. on Knowledge Science. 2015.
Slavkovic AB, Nardi Y, Tibbits MM. Secure logistic regression of horizontally and vertically partitioned distributed databases. In:Proc. of the 7th IEEE Int'l Conf. on Data Mining Workshops (ICDMW 2007). IEEE, 2007. 723-728.
Nikolaenko V, Ioannidis S, Weinsberg U, Joye M, Taft N, Boneh D. Privacy-Preserving matrix factorization. In:Proc. of the 2013 ACM SIGSAC Conf. on Computer & Communications Security. ACM, 2013. 801-812.
Gascón A, Schoppmann P, Balle B, Raykova M, Doerner J, Zahur S, Evans D. Secure linear regression on vertically partitioned datasets. IACR Cryptology ePrint Archive, 2016. 892.
Mcmahan HB, Moore E, Ramage D, Arcas BAY. Federated learning of deep networks using model averaging. arXiv: 1602.056292016.
Phong LT, Aono Y, Hayashi T, Wang L, Moriai S. Privacy-Preserving deep learning via additively homomorphic encryption. IEEE Trans. on Information Forensics and Security, 2018, 13(5):1333-1345.
Liu Y, Chen T, Yang Q. Secure federated transfer learning. arXiv preprint arXiv: 1812.03337, 2018.
http://www.jos.org.cn/1000-9825/4511.htm[doi:10.13328/j.cnki.jos.004511]]]>
http://www.jos.org.cn/1000-9825/4511.htm[doi:10.13328/j.cnki.jos.004511]]]>