顾育豪(1993-), 男, 博士生, 主要研究领域为深度学习安全和隐私
白跃彬(1962-), 男, 博士, 教授, 博士生导师, CCF高级会员, 主要研究领域为新型智能计算系统, 云操作系统, 嵌入式操作系统
随着数据孤岛现象的出现和个人隐私保护的重视, 集中学习的应用模式受到制约, 而联邦学习作为一个分布式机器学习框架, 可以在不泄露用户数据的前提下完成模型训练, 从诞生之初就备受关注. 伴随着联邦学习应用的推广, 其安全性和隐私保护能力也开始受到质疑. 对近年来国内外学者在联邦学习模型安全与隐私的研究成果进行了系统总结与分析. 首先, 介绍联邦学习的背景知识, 明确其定义和工作流程, 并分析存在的脆弱点. 其次, 分别对联邦学习存在的安全威胁和隐私风险进行系统分析和对比, 并归纳总结现有的防护手段. 最后, 展望未来的研究挑战和方向.
As data silos emerge and importance is attached to personal privacy protection, the application modes of centralized learning are restricted, whereas federated learning has attracted great attention since it appeared owing to the fact that it, as a distributed machine learning framework, can accomplish model training without leaking users’ data. As federated learning is increasingly widely applied, its security and privacy protection capability have also begun to be questioned. This study offers a systematic summary and analysis of the research achievements domestic and foreign researchers have made in recent years in the security and privacy of federated learning models. Specifically, this study outlines the background of federated learning, clarifies its definition and workflow, and analyzes its vulnerabilities. Then, the security threats and privacy risks against federated learning are systematically analyzed and compared respectively, and the existing defense methods are summarized. Finally, the prospects of this research area and the challenges ahead are presented.
近年来, 机器学习(machine learning)技术蓬勃发展, 在社会工作生活各个领域中得到广泛应用, 如人脸识别、智慧医疗和自动驾驶等, 并取得巨大的成功. 机器学习的目标是从大量数据中学习到一个模型, 训练后的模型可以对新的未知数据预测结果, 因此模型的性能与训练数据的数量和质量密切相关. 传统的机器学习应用基本都采取集中学习[
(1) 数据孤岛
随着信息化、智能化进程的发展, 各个企业或同一企业的各个部门都存储了大量的应用数据, 但是数据的定义和组织方式都不尽相同, 形成一座座相互独立且无法关联的“孤岛”, 影响数据的流通和应用. 数据集成整合的难度和成本严重限制了集中学习的推广应用.
(2) 个人隐私保护的重视
近年来, 个人数据泄露的事件层出不穷, 如2018年Facebook数据泄露事件等. 这些事件引起了国家和公众对于个人隐私保护的关注. 各个国家都开始出台数据隐私保护相关的法律法规, 如欧盟2018年5月25日出台的《通用数据保护条例》(general data protection regulation, GDPR)[
为应对上述两个问题, 联邦学习(federated learning)应运而生. 联邦学习, 又名联盟学习或联合学习, 是一种由多个客户端和一个聚合服务器参与的分布式机器学习架构. 客户端既可以是个人的终端设备(如手机等), 也可以代表不同的部门或企业, 它负责保存用户的个人数据或组织的私有数据. 客户端在本地训练模型, 并将训练后的模型参数发送给聚合服务器. 聚合服务器负责聚合部分或所有客户端的模型参数, 将聚合后的模型同步到客户端开始新一轮的训练. 这种联合协作训练的方式可以在保证模型性能的前提下, 避免个人数据的泄露, 并有效解决数据孤岛的问题.
联邦学习自2016年谷歌[
基于联邦学习的语言预测应用Gboard
随着联邦学习的发展应用, 其安全性与隐私性逐渐引起学术界的关注. 与集中学习相比, 联邦学习的模型参数共享和多方通信协作机制引入了新的攻击面. 近年来, 许多学者对联邦学习的安全威胁进行深入研究, 提出一系列攻击手段和防护方案. 除安全性外, 学者也发现联邦学习存在诸如成员推断攻击等隐性泄露的风险. 这些将严重影响联邦学习的实际部署应用, 因此本文对目前联邦学习模型的安全与隐私研究工作进行系统的整理和科学的归纳总结, 分析联邦学习面临的安全隐私风险及挑战, 为后续学者进行相关研究时提供指导.
本文第1节主要介绍联邦学习的背景知识, 明确其定义和工作流程, 并分析其存在的脆弱点. 第2节对联邦学习存在的安全威胁进行系统的整理和分析, 归纳现有的防护方法, 并对集中学习和联邦学习在安全问题上的共性与差异进行分析. 第3节总结联邦学习的隐私风险以及隐私保护方面的研究进展, 讨论集中学习和联邦学习在隐私风险的差异. 第4节展望未来的研究方向, 提出联邦学习安全和隐私领域亟待解决的重要问题. 第5节总结全文.
联邦学习是一种分布式的机器学习框架, 最早是由谷歌的McMahan等人提出并落地应用[
假定
集中学习是将所有参与方的数据集合存储形成数据集
联邦学习以少量性能损失换取额外的隐私保护和数据安全. 为保证联邦学习模型的有效性,
根据不同参与方的数据集在特征空间
(1) 横向联邦学习
横向联邦学习是针对多个参与方的数据集拥有相同的数据特征, 但样本不同的场景, 其定义如下:
谷歌的Gboard是典型的横向联邦学习应用[
(2) 纵向联邦学习
纵向联邦学习适用于多个参与方的数据集具有相同的样本ID空间, 但特征空间不同的场景, 其定义如下:
例如某个地区的银行和电子商务公司拥有的数据集都包含本地区的居民, 样本ID空间有大量交叉, 但数据特征却完全不同. 其中银行的数据是描述用户的收支行为和资金状况, 而电子商务公司保存的是用户对各种商品的浏览与购买记录. 两个公司可以利用纵向联邦学习联合训练一个用户购买商品的预测模型.
(3) 联邦迁移学习
联邦迁移学习是针对两个参与方的数据集特征不同且样本也不同的应用场景, 其定义如下:
例如不同地区的银行和电子商务公司的数据集样本空间中只有少量重叠. 他们可以利用联邦迁移学习进行合作, 基于有限的公共样本集学习两个特征空间的公共表示.
目前针对联邦学习模型的安全与隐私研究主要集中在横向联邦学习, 因此下文如无特殊说明, 联邦学习均指代横向联邦学习.
联邦学习系统的架构
(1) 模型初始化: 聚合服务器选定目标模型的结构和超参数, 并初始化模型的权重(基于自身拥有的数据
(2) 模型广播: 通过聚合服务器广播或参与方主动下载的方式, 聚合服务器将当前全局模型的权重共享给所有参与方.
(3) 参与方训练: 参与方基于共享的全局模型, 利用本地保存的私有数据训练微调本地模型, 并计算本地模型的权重更新.
(4) 模型聚合: 聚合服务器从参与方收集模型的权重更新, 根据业务需求采用不同的算法进行聚合. 常见的聚合算法包括FedAvg[
(5) 更新全局模型: 聚合服务器基于计算的聚合结果更新全局模型的参数.
在总结联邦学习模型的安全与隐私研究之前, 本文首先对联邦学习系统的脆弱点进行分析. 如
(1) 通信协议
在训练模型的迭代过程中, 参与方需要和聚合服务器进行数据通信. 参与方需要将本地的模型更新发送给聚合服务器, 而聚合服务器也需要下发新的全局模型. 更新中包含模型的梯度信息, 可用于推断参与方的训练数据, 泄露参与方的隐私[
(2) 聚合服务器
聚合服务器负责初始化模型参数、聚合参与方的模型更新和下发全局模型. 若服务器被攻陷, 攻击者可以随意发布恶意模型, 影响参与方的本地应用. 另外, 服务器可以查看各个参与方发送的模型更新, 诚实但好奇(honest but curious)的服务器可以基于模型更新重构参与方的本地数据[
(3) 参与方
参与方可以通过上传恶意的模型更新破坏聚合后的全局模型. 目前常见的联邦学习应用的参与方都是个人用户(如Gboard应用[
在集中学习的发展过程中, 许多学者对其安全性进行深入研究, 发现其中存在的安全威胁, 如训练阶段的投毒攻击(poisoning attack)[
本文以联邦学习面临的安全攻击的发生逻辑和顺序对目前主要研究的攻击手段进行分类(如
联邦学习面临的安全攻击
攻击者对联邦学习系统发动不同攻击时有不同的攻击目标, 同时也需要不同的背景知识和能力, 因此本文从攻击者目标、攻击者能力以及攻击者知识3个维度对安全攻击的威胁模型(threat model)进行分析[
(1) 攻击者目标
攻击者的目标是降低联邦学习全局模型的性能(如准确率、
(2) 攻击者能力
攻击者能力是指攻击者对联邦学习系统的角色和数据所拥有的操作权限. 在现有的安全研究工作中, 攻击者能力从高到低依次包括: 控制服务器、控制多个参与方、控制单个参与方和控制参与方训练数据. 其中控制服务器和控制参与方是指攻击者可以随意访问修改服务器或参与方的模型和数据, 干扰其执行的操作, 而控制训练数据是指攻击者可以读取、插入或修改参与方的训练数据集. 攻击要求的能力越低, 在实际应用中越容易实施.
(3) 攻击者知识
攻击者知识是指攻击者对目标联邦学习系统的背景知识, 具体包括: 服务器采用的聚合算法、每轮迭代中所有参与方上传的模型更新、参与方训练数据集的数据分布等. 攻击所需知识越少, 在实际应用中越容易实施.
数据投毒攻击(data poisoning attack)最早由Biggio等人提出[
标签翻转(label flipping)是一种典型的数据投毒攻击, 通过直接修改目标类别的训练数据的标签信息, 使模型将目标标签的特征对应到错误标签, 从而影响模型的推理效果. Tolpegin等人[
在联邦学习中, 因为控制参与方的攻击成本较低, 攻击者可以发动攻击效果更好且更灵活的模型投毒攻击, 所以现有关于数据投毒的研究较少. 但数据投毒攻击在实际应用中对攻击者能力和知识要求最少, 只需要攻击者可以控制参与方的训练数据, 因此具有广泛的实施场景.
模型投毒攻击(model poisoning attack)是通过直接修改模型的权重参数对模型进行攻击, 当模型采用随机梯度下降(stochastic gradient descent)算法时, 则是修改模型梯度. 在联邦学习的工作流程中, 参与方需要向服务器发送本地的模型更新. 因为参与方的数据和训练过程都是在本地完成, 对服务器不可见, 所以服务器无法对参与方上传的模型更新的真实性进行验证. 这些为攻击者实施模型投毒攻击创造了条件. 恶意方可以构造任意模型更新发送给服务器, 破坏聚合后的全局模型.
联邦学习最常用的聚合算法FedAvg是在前一轮全局模型上添加本地模型更新的平均值[
针对Krum[
文献[
数据投毒和模型投毒都是通过上传恶意的模型更新破坏全局模型, 两者的区别在于数据投毒攻击不会干扰参与方的本地训练过程, 而模型投毒攻击可以跳过本地训练, 利用算法伪造任意模型更新. 因此, 模型投毒攻击不受模型训练的限制, 威胁性更大, 但攻击难度也更高, 需要攻击者完全控制一个或多个参与方. 在当前联邦学习的应用中, 参与方的攻击成本较低, 导致模型投毒攻击大行其道, 加之其强大的破坏效果, 因此受到学术界的广泛关注.
后门(backdoor)攻击是在模型中埋藏一个后门, 攻击者可以通过预先设定的触发器(trigger)激活后门, 使模型对带有触发器的数据输出设定的标签, 同时不影响正常数据的推断. 例如, 后门攻击可以使自动驾驶模型正确识别普通的停车标志, 而将带有黄色方块的停车标志识别为限速标志, 此时黄色方块就是触发器[
联邦学习中后门、数据投毒和模型投毒的关系
Nuding等人[
文献[
聚合服务器负责全局模型的初始化、聚合和更新, 直接影响全局模型. 在目前的联邦学习架构中, 参与方在每轮迭代开始时都会使用聚合服务器下发的全局模型覆盖本地模型, 不会对全局模型的正确性进行检验, 因此恶意服务器可以跳过聚合过程直接下发恶意模型, 在参与方的本地模型植入后门, 给参与方的应用带来严重的威胁. 因为恶意服务器的攻击方法明显, 且服务器的安全防护措施较为完善、攻击成本高, 所以目前并没有相关的研究.
综上所述, 目前针对联邦学习的安全攻击方法及其威胁模型如
联邦学习的安全攻击总结
文献 | 攻击类型 | 威胁模型 | 验证数据集 | ||
攻击目标 | 攻击者知识 | 攻击者能力 | |||
注: (1) 攻击者知识中“模型更新”表示每轮迭代中所有参与方上传的模型更新, “数据分布”表示所有参与方本地训练集的数据分布; (2) 攻击者能力中 |
|||||
Tolpegin等人[ |
数据投毒 | 定向 | - | 控制参与方数据 | CIFAR-10/Fashion-MNIST |
Zhang等人[ |
数据投毒 | 定向 | - | 控制参与方: |
AT&T/MNIST |
Zhang等人[ |
数据投毒 | 定向 | - | 控制参与方: |
CIFAR-10/Fashion-MNIST/MNIST |
Mhamdi等人[ |
模型投毒 | 非定向 | 聚合算法/
|
控制参与方: |
CIFAR-10/MNIST |
Baruch等人[ |
模型投毒/
|
非定向/
|
数据分布 | 控制参与方: |
CIFAR-10/MNIST |
Xie等人[ |
模型投毒 | 非定向 | 聚合算法/
|
控制参与方: |
CIFAR-10 |
Bhagoji等人[ |
模型投毒 | 定向 | 数据分布 | 控制参与方: |
Adult Census/Fashion-MNIST |
Fang等人[ |
模型投毒 | 非定向 | - | 控制参与方: |
Breast Cancer Wisconsin
|
Shejwalkar等人[ |
模型投毒 | 非定向 | 聚合算法/
|
控制参与方: |
CIFAR-10/FEMNIST
|
Nuding等人[ |
后门 | 定向 | - | 控制参与方数据 | European Traffic Signs |
Nguyen等人[ |
后门 | 定向 | - | 控制参与方: |
DIoT-Attack
|
Bagdasaryan等人[ |
后门 | 定向 | - | 控制参与方: |
CIFAR-10/Reddit |
Sun等人[ |
后门 | 定向 | - | 控制参与方: |
EMNIST |
Xie等人[ |
后门 | 定向 | - | 控制参与方: |
CIFAR-10/LOAN
|
从
针对联邦学习面临的安全威胁, 许多学者研究了各种防护方法以提高联邦学习的安全性. 根据防护方法采用的技术手段, 主要可分为以下4类: 设计安全聚合算法、结合区块链、利用安全硬件和加固模型, 此外还有个别文献提出一些特殊方法. 每类安全攻击可以采用不同的方法进行防御, 具体如
联邦学习的安全攻击和防护方法
攻击手段 | 防护方法 |
数据投毒 | 设计安全聚合算法[ |
模型投毒 | 设计安全聚合算法[ |
恶意服务器 | 结合区块链[ |
通过分析联邦学习的攻击手段, 可以推断目前联邦学习的安全威胁主要来自恶意方, 但因参与方数量大、范围广且难以控制, 所以现有安全防护方法的研究主要集中在服务器的聚合算法. 安全可靠的聚合算法可以保证即使联邦学习系统中存在恶意节点, 全局模型也能正确收敛. 目前安全聚合算法可分为以下两类: 基于模型更新特征差异的聚合算法和基于验证数据集的聚合算法. 在本节的后续表述中, 为方便说明, 设
(1) 基于模型更新特征差异的聚合算法
这类算法的主要思想是, 为了破坏全局模型, 攻击者上传的恶意模型更新不同于正常更新. 因此聚合服务器可以基于收集的所有模型更新从不同的特征分析更新间的差异, 区分恶意更新与正常更新, 或只选择恶意可能性较小的部分更新进行聚合.
文献[
文献[
此外, 还有部分学者提出了其他类型的区分特征, 如Yang等人[
文献[
针对部分安全聚合算法只适用于独立同分布数据集的问题, He等人[
(2) 基于验证数据集的聚合算法
基于验证数据集的聚合算法是利用验证数据集对参与方上传的模型更新进行验证, 根据参与方模型更新的准确性判断其是否为恶意更新. 其中文献[
Wang等人[
文献[
Cao等人[
Fang等人[
上述聚合算法都是假定服务器拥有验证数据集, 而针对服务器无法事先收集数据样本的问题, Zhao等人[
不同于服务器验证的思路, Zhao等人[
联邦学习作为一种分布式计算框架, 与分布式账本-区块链(blockchain)技术高度契合, 因此部分学者提出了将联邦学习与区块链相结合的防护方案, 利用区块链的安全特性提高联邦学习系统的安全性.
在Bao等人[
Li等人[
Qu等人[
Liu等人[
基于区块链的联邦学习框架总结
文献 | 区块链节点 | 共识算法 | 区块保存的数据 | 聚合节点 |
Bao等人[ |
参与方 | 基于可信度的领导选举 | 参与方的个人信息、数据资源描述、
|
可信度最高的节点 |
Li等人[ |
参与方 | 委员会共识 | 本地模型更新或全局模型 | 委员会 |
Peng等人[ |
参与方 | 多数表决 | 全局模型的可验证证明 | 委员会 |
Shayan等人[ |
参与方 | PoF | 全局模型 |
聚合委员会 |
Qu等人[ |
矿工 | PoW | 本地模型更新、全局模型 | PoW获胜的矿工 |
Zhao等人[ |
矿工 | Algorand | 本地模型更新、全局模型 | 矿工领导 |
Liu等人[ |
矿工 | PoS | 本地模型更新、全局模型 | 聚合服务器 |
与其他安全防护方法相比, 将联邦学习与区块链相结合具有以下优势.
(1) 利用区块链去中心化的特点, 即不依赖中心管理节点实现数据的分布式记录、存储和更新, 可以移除联邦学习系统中的聚合服务器, 转而从所有参与方节点中选择单个或多个节点执行聚合操作, 并在所有节点间取得共识, 从而防御恶意服务器的攻击[
(2) 通过将模型更新和全局模型上链, 使所有参与方都可以对其进行检验, 及时发现恶意行为. 现有基于验证数据集的安全聚合算法主要是由聚合服务器执行, 要求服务器事先准备验证数据集, 但这个条件在实际应用中存在一定的局限性: 一方面服务器无法接触参与方的数据, 其拥有的验证集可能与实际的数据分布有明显差异; 另一方面当联邦学习应用于数据非独立同分布的场景时[
针对模型投毒跳过本地训练直接上传恶意更新的攻击行为, 部分学者提出可利用安全硬件保证联邦学习本地训练的完整性, 防止训练过程受攻击者干扰. 他们主要是利用可信执行环境(trusted execution environment, TEE)进行防护, 如Intel的SGX[
Chen等人[
虽然利用安全硬件可以有效防护模型投毒攻击, 但是无法保证本地训练集的可靠性, 因此不适用于防护数据投毒攻击.
针对数据投毒攻击, 部分学者借鉴集中学习的防御思路, 提出通过修改联邦学习模型的结构来提高模型的健壮性, 降低污染数据的危害程度.
Zhao等人[
Ibitoye等人[
除了上述4种主要的安全防护技术手段外, 部分学者也提出一些其他方法防御安全攻击. 其中包括如下几种.
Chang等人[
Kang等人[
Guo等人[
本节从威胁模型、安全攻击手段和安全防护方法这3个方面对集中学习和联邦学习在安全问题上的共性和差异进行分析.
集中学习和联邦学习在威胁模型上存在以下共同点: 首先, 集中学习和联邦学习的攻击目标是一致的, 都是尽可能破坏模型的可用性, 使模型在推理阶段无法正常工作, 具体的攻击目标都包括非定向攻击和定向攻击. 其次, 在攻击者能力方面, 研究两者的安全攻击时都会考虑攻击者是否可以控制训练集.
对于威胁模型的其他方面, 集中学习与联邦学习有如下差异.
(1) 攻击者知识
因为集中学习的模型通常是由服务提供商在本地训练后开发给用户使用, 攻击者无法轻易接触目标模型, 所以在集中学习中攻击者知识指的是攻击者对于目标模型的了解程度, 可分为黑盒攻击和白盒攻击[
(2) 攻击者能力
除了控制训练数据集外, 部分集中学习的安全研究会假定攻击者可以修改训练好的目标模型, 攻击者通过修改模型的权重[
集中学习和联邦学习都包括训练阶段和推理阶段, 两者的区别只在于训练阶段.
集中学习与联邦学习的安全攻击手段的对比
类型 | 训练阶段 | 恶意服务器 | 推理阶段 | ||||
数据投毒 | 模型投毒 | 后门 | 对抗样本攻击 | ||||
数据投毒 | 模型投毒 | 修改模型 | |||||
集中学习 | √ | √ | √ | √ | |||
联邦学习 | √ | √ | √ | √ | √ | √ |
然而, 联邦学习中参与方和服务器协作的机制可以削弱集中学习的攻击效果, 但也引入了新的安全问题与挑战. 一方面, 聚合操作会降低单一或少量攻击者对全局模型的影响, 集中学习的数据投毒对全局模型的危害有限, 因此在研究联邦学习的安全攻击时, 需要解决聚合后攻击的有效性问题. 另一方面, 引入脆弱的参与方为攻击者干预模型训练创造了条件, 攻击者可以通过模型投毒破坏全局模型. 除了恶意方, 联邦学习的安全研究还需要考虑恶意服务器的存在. 此外, 集中学习与联邦学习在后门攻击的实施策略也存在差异. 在联邦学习中, 攻击者是通过数据投毒或模型投毒植入后门, 而在集中学习的后门攻击研究中, 虽然绝大部分都是基于数据投毒实现, 但也有部分学者研究其他植入后门的策略[
在安全防护方法上, 集中学习和联邦学习存在以下共同点: 对抗样本攻击的防护方法都适用于集中学习和联邦学习; 目前, 集中学习针对数据投毒的防御主要是使用鲁棒学习和数据清理来净化训练样本[
而两者在安全防护方法上的差异具体如下.
(1) 在参与方为资源受限设备的联邦学习应用中(如物联网等), 直接采用集中学习的安全防护方法可能会给设备带来一定的计算压力, 因此需要调整现有的防护方法, 在资源开销和安全性之间进行平衡, 以适用于联邦学习的场景.
(2) 与集中学习相比, 联邦学习面临着恶意参与方的威胁, 可以通过研究安全可靠的聚合算法进行防御. 此外, 也可以利用安全硬件避免训练过程受攻击者干扰, 提高联邦学习的安全性.
(3) 虽然集中学习和联邦学习都可以通过验证数据集检测模型的异常行为, 但是与集中学习完全掌握训练数据信息不同, 联邦学习的聚合服务器拥有的辅助数据可能和参与方的训练数据有明显差异, 导致这一防护方法在联邦学习中具有一定的局限性, 因此部分学者提出将联邦学习与区块链相结合, 让每个参与方都可以对全局模型进行检测.
根据机器学习隐私保护的内容, 可将机器学习隐私分为训练数据隐私、模型隐私与预测结果隐私[
虽然联邦学习通过参与方和服务器交换模型参数的方式保护了参与方的本地数据, 但是学者研究发现交换的模型梯度也可能泄露训练数据的隐私信息[
(1) 联邦学习的模型信息对攻击者是可见的, 攻击者可以实施白盒隐私攻击.
(2) 联邦学习的训练包含多轮迭代, 攻击者可以利用模型在迭代过程的变化挖掘更多的数据信息.
(3) 攻击者可以通过参与方或服务器干扰模型训练过程, 修改模型参数, 使正常参与方在后续迭代中暴露更多本地数据信息.
因此许多学者专门针对联邦学习存在的隐私风险与保护方法进行研究. 本文以联邦学习面临的隐私攻击的发生逻辑和顺序对目前主要研究的攻击手段进行分类(如
联邦学习面临的隐私攻击
本文从攻击者角色、攻击者目标、攻击者知识和攻击模式这4个维度对隐私攻击的威胁模型进行分析.
(1) 攻击者角色
攻击者角色是指攻击者在联邦学习系统中扮演的角色, 具体包括: 服务器、参与方和第三方. 其中服务器的攻击目的是提取与参与方训练数据相关的信息, 可以对单个参与方实施攻击. 而参与方是为了窃取其他参与方的训练数据隐私, 但因为参与方只能接触全局模型, 所以无法攻击特定的参与方. 第三方则是指没有参与到联邦学习训练过程的个人或组织, 他们只能通过窃听服务器和参与方的通信, 或者使用训练好的全局模型等方法推断联邦学习的模型信息或参与方的数据信息.
(2) 攻击者目标
攻击者的目标是从联邦学习的训练过程中提取参与方本地数据的隐私信息, 根据其具体目标可分为两类: 成员推断(membership inference)和属性推断(property inference). 其中成员推断是推断某个数据样本是否在参与方的训练数据集中. 作为一个决策问题, 成员推断攻击的结果是输出某个数据样本属于参与方训练集的概率[
(3) 攻击者知识
攻击者知识是指攻击者对目标联邦学习系统所了解的背景知识, 在隐私攻击中要求的知识只有辅助数据集. 辅助数据集需要和参与方的本地数据相似, 且带有正确的主任务标签或属性标签.
(4) 攻击模式
攻击模式分为主动攻击和被动攻击. 其中主动攻击是指攻击者干扰联邦学习的正常流程, 如控制服务器跳过聚合过程下发恶意模型等, 而被动攻击是指攻击者不干预联邦学习, 只在服务器或参与方部署额外程序, 基于现有的数据和模型进行攻击.
在联邦学习中, 成员推断攻击是指攻击者利用参与方的模型更新或全局模型推断参与方的训练数据集中是否包含某个数据样本的攻击方法.
Melis等人[
Nasr等人[
文献[
属性推断攻击是推断参与方训练数据的敏感隐私属性, 包括模型任务相关属性和无关属性.
(1) 相关属性推断
模型任务相关属性是描述训练数据中每类数据的关键特征, 通过推断相关属性可以重构每类标签的训练数据, 因此这种攻击也可称为数据重构(data reconstruction)攻击. 重构的数据并不是真正的训练数据, 只是与训练数据相似的数据样本[
文献[
Zhu等人[
(2) 无关属性推断
任务无关属性是指训练数据中对模型任务不起作用的特征信息, 理论上模型不应该泄露这类隐私, 这纯粹是模型训练过程的产物[
窃听发生在参与方和服务器交互的过程中, 如果参与方和服务器之间是明文通信, 或者采用脆弱的加密通信方法, 攻击者就可以通过窃听获取参与方上传的模型更新以及服务器下发的全局模型, 进而实施隐私攻击. 窃听为联邦学习的第三方提供了窃取隐私的渠道.
综上所述, 目前针对联邦学习的隐私攻击方法及其威胁模型如
联邦学习的隐私攻击方法总结
文献 | 威胁模型 | 验证数据集 | |||
攻击者角色 | 攻击目标 | 攻击者知识 | 攻击模式 | ||
注: 攻击目标中“属性推断”表示模型任务无关属性的推断攻击 | |||||
Melis等人[ |
参与方 | 成员推断
|
辅助数据 | 主动/被动 | LFW/FaceScrub/PIPA/Yelp-health
|
Nasr等人[ |
服务器
|
成员推断 | - | 主动/被动 | CIFAR-100/Purchase/Texas100 |
Chen等人[ |
参与方 | 成员推断 | - | 被动 | CIFAR-10/MNIST |
Zhang等人[ |
参与方 | 成员推断 | - | 被动 | MNIST |
Hitaj等人[ |
参与方 | 数据重构 | - | 主动 | AT&T/MNIST |
Wang等人[ |
服务器 | 数据重构 | 辅助数据 | 主动/被动 | AT&T/MNIST |
Song等人[ |
服务器 | 数据重构 | 辅助数据 | 主动/被动 | AT&T/MNIST |
Zhu等人[ |
服务器 | 数据重构 | - | 被动 | BERT/CIFAR-100/LFW/MNIST/SVHN |
Geiping等人[ |
服务器 | 数据重构 | - | 被动 | CIFAR-10/ImageNet |
Zhao等人[ |
服务器 | 数据重构 | - | 被动 | CIFAR-100/LFW/MNIST |
Wei等人[ |
服务器 | 数据重构 | - | 被动 | CIFAR-10/CIFAR-100/LFW/MNIST |
Shen等人[ |
服务器 | 属性推断 | 辅助数据 | 主动 | CASIS-WebFace/CelebA/LFW/MNIST |
针对联邦攻击面临的隐私风险, 许多学者研究了一系列隐私保护方法, 防止参与方隐私信息的泄露. 根据隐私保护采用的技术手段, 主要可分为以下5类: 安全多方计算、差分隐私、加密、混淆和共享部分参数, 此外还有个别文献提出一些其他方法.
安全多方计算(secure multi-party computation, SMC)允许多个数据所有者在互不信任的情况下进行协同计算, 最早由Yao于1982年提出[
SMC的数学描述如下: 有
Xu等人[
Khazbak等人[
其中,
Li等人[
差分隐私(differential privacy)是一种广泛应用的隐私保护技术, 它通过在用户的数据上添加扰动, 保证在一定概率范围内, 攻击者无法从用户发布的信息中推导出用户的隐私. 差分隐私的具体定义如下[
其中, Pr为算法
基于差分隐私的特性, 可以将聚合算法作为
文献[
在联邦学习中应用差分隐私并不会额外增加过多的计算开销, 还可以与其他隐私保护方案相结合增强保护效果, 但是它不可避免地会降低模型的准确性, 因此需要在隐私预算和模型性能之间进行平衡.
加密是利用密码学算法将联邦学习的模型更新转换为密文进行计算, 避免隐私数据直接暴露在攻击者面前, 主要是利用同态加密(homomorphic encryption, HE)算法实现.
HE是一种允许用户直接在密文上进行运算的加密方法, 运算结果仍是密文, 且解密后与直接在明文上运算的结果是一致的, 即满足以下公式[
其中,
(1) 全同态加密(fully homomorphic encryption, FHE):
(2) 类同态加密(somewhat homomorphic encryption, SHE):
(3) 部分同态加密(partially homomorphic encryption, PHE):
基于同态加密的联邦学习隐私保护方案对比
文献 | 加密类型 | 加密算法 | 攻击方 | 参与方是否共享密钥 |
Phong等人[ |
AHE | LWE-based[ |
服务器 | 是 |
Hao等人[ |
AHE | PPDM[ |
服务器 | 是 |
Chai等人[ |
AHE | Paillier[ |
服务器 | 是 |
Fang等人[ |
MHE | Double-key ElGamal | 服务器/参与方 | 否 |
Hao等人[ |
FHE+AHE | BGV[ |
服务器/参与方 | 否 |
Fang等人[ |
MHE | ElGamal[ |
服务器/参与方 | 否 |
Froelicher等人[ |
FHE | multiparty lattice-based[ |
服务器/参与方 | 否 |
Sav等人[ |
FHE | multiparty lattice-based[ |
服务器/参与方 | 否 |
文献[
Li等人[
基于加密的隐私保护方案受限于加密算法, 目前只支持简单的聚合算法, 且同态加密会引入大量通信和计算开销.
混淆(masking)是指对参与方的模型更新进行混淆, 使攻击者无法从中推断出参与方隐私, 同时又可以保证混淆后模型更新的聚合结果是正确的.
Bonawitz等人[
其中,
但是上述混淆方案只适用于聚合所有参与方的场景, 聚合过程中如果部分参与方掉线会导致错误的聚合结果且无法恢复. 对此Bonawitz等人[
其中,
在联邦学习的推荐系统应用中, 参与方可以根据本地数据的索引从聚合服务器选择下载部分模型、训练并上传. 为避免服务器从参与方下载和上传的模型中推断出参与方的数据索引, Niu等人[
基于混淆的隐私保护方案主要用于防范不可信的服务器, 需要参与方之间相互通信协商. 对于存在恶意方的攻击场景, 需要借助第三方的公钥基础设施(public key infrastructure)保证参与方之间通信消息的准确性.
为解决参与方上传的模型梯度泄露本地数据隐私的问题, 部分学者提出只上传梯度的部分参数, 减少梯度泄露的隐私. 这类方法的难点在于减少参与方上传参数的同时如何保证全局模型的性能. 文献[
虽然共享部分参数的计算开销低, 在部分场景中防御效果明显, 但是其具体可提供的隐私保护能力尚未得到充分验证.
除了上述5种主要的隐私保护技术手段外, 部分学者也提出一些其他方法应对联邦学习的隐私攻击, 其中包括: 在Chang等人[
上述隐私保护技术在应用中可以相互结合, 增强保护效果.
联邦学习综合隐私保护方案总结
文献 | 函数加密 | 差分隐私 | 加密 | 混淆 | 共享部分参数 |
Xu等人 (2019)[ |
√ | √ | - | - | - |
Fang等人 (2020)[ |
- | - | √ | - | √ |
Hao等人 (2020)[ |
- | √ | √ | - | - |
Niu等人 (2020)[ |
- | √ | - | √ | - |
Li等人 (2019)[ |
- | √ | - | - | √ |
Zhao等人 (2021)[ |
- | √ | - | - | √ |
本节从威胁模型、隐私攻击手段和隐私保护方法这3个方面对集中学习和联邦学习在隐私问题上的共性和差异进行分析.
集中学习与联邦学习的隐私威胁模型的对比
威胁模型 | 集中学习 | 联邦学习 | |
攻击者角色 | 服务器 | - | √ |
参与方 | - | √ | |
第三方 | √ | √ | |
攻击者目标 | 成员推断 | √ | √ |
属性推断 | √ | √ | |
模型萃取 | √ | - | |
攻击者知识 | 辅助数据集 | √ | √ |
攻击者模型 | 主动攻击 | - | √ |
被动攻击 | √ | √ |
而在威胁模型的其他方面, 集中学习与联邦学习存在如下差异.
(1) 集中学习的攻击者都是第三方, 企图提取服务提供商的模型隐私或数据隐私, 而联邦学习系统包含多类角色, 因此学者会针对服务器、参与方和第三方等不同角色研究不同的攻击手段和防护方法.
(2) 在集中学习中, 除了训练数据, 模型也是攻击者的目标之一. 例如, 在目前流行的MLaaS (machine learning as a service)平台上, 对外提供付费人工智能服务的模型也具有一定的商业价值, 因此攻击者会通过构造特定的输入, 根据模型的返回结果尝试逆向提取目标模型的结构和参数信息, 从而复制一个功能相似甚至相同的模型, 这种攻击称为模型萃取(model extraction)攻击[
(3) 在攻击模式方面, 因为集中学习的模型通常是在服务器上训练, 攻击者难以干预模型训练, 所以只在模型的推理阶段实施攻击, 不存在攻击模式上的差异. 而联邦学习的恶意服务器或恶意方可以通过干预训练阶段以获取更多的隐私.
在隐私攻击手段方面, 集中学习与联邦学习的隐私攻击有明显差异, 需要分别进行研究.
目前集中学习面临的隐私风险都属于黑盒攻击, 因此集中学习的成员推断主要是利用模型在训练数据和测试数据上的输出差异进行区分, 而属性推断则是通过大量的查询结果提取模型输出与某些特定属性的关联实现. 虽然这些攻击手段都是针对单个模型, 可以应用于联邦学习的全局模型, 但是联邦学习的聚合操作会削弱每个参与方的本地数据对全局模型的影响, 导致攻击成功率较低[
而联邦学习也面临着特有的隐私风险: 首先, 联邦学习的模型信息和梯度对攻击者是可见的, 这些都可以用于提取参与方的数据隐私[
在隐私保护方法上, 集中学习和联邦学习存在以下共同点: 目前, 集中学习针对隐私攻击的防御主要是使用差分隐私和同态加密[
而两者在隐私保护方法上的差异具体如下.
(1) 与两者在安全防护方法的差异类似, 在联邦学习应用集中学习的隐私保护方法时, 需要在资源开销和隐私性之间进行平衡, 以适用于联邦学习的参与方资源有限的场景.
(2) 因为联邦学习除模型训练外还包含聚合操作, 所以在应用差分隐私和加密方法时, 还需要解决聚合操作的差分隐私保证和同态加密有效性的问题.
(3) 因为联邦学习需要参与方和服务器之间多方协作, 所以服务器和参与方通信数据的隐私也是需要重点关注的问题, 因此发展出安全多方计算、混淆和共享部分参数等隐私保护技术.
虽然联邦学习模型的安全与隐私研究已经取得许多研究成果, 但是目前还处于初期探索阶段, 尚有诸多问题亟待解决, 其中有以下3个重要问题值得深入研究.
(1) 成本低和隐蔽性强的联邦学习投毒攻击与防护
目前联邦学习安全攻击的研究主要集中在模型投毒攻击, 攻击者通过构造恶意的模型更新破坏全局模型, 许多学者在此之上进行攻防博弈. 然而, 模型投毒要求攻击者完全控制单个或多个参与方, 随着联邦学习部署应用的延伸, 逐渐减少的脆弱参与方将限制模型投毒的应用. 与之相比, 数据投毒对攻击者能力要求低, 具有更广泛的实施场景, 且在大规模训练数据集中更不易被发现. 然而, 目前对数据投毒的研究还比较浅显, 只停留在简单验证攻击可行性的阶段. 数据投毒需要经过模型本地训练阶段, 其产生的恶意更新与正常更新有一定的相似性, 是否可以生成恶意训练数据模糊恶意更新与正常更新, 以绕过现有异常检测聚合算法的防御?是否可以通过构造恶意数据生成目标模型更新, 从而利用现有模型投毒的研究成果实施更加隐蔽的攻击?如何防止数据投毒的攻击效果被模型聚合削弱?这些问题都亟待后续深入研究. 加强对联邦学习数据投毒的研究, 可以对联邦学习的安全性有更加深刻的认识, 进而推动联邦学习安全防护方法的探索, 为联邦学习的推广应用保驾护航.
(2) 参与方退出联邦学习时的隐私保护
在GDPR等隐私保护的法律法规中明确规定个人对其隐私数据享有删除权和被遗忘权, 即个人有权要求数据控制者删除其个人信息, 且数据控制者需采取必要的措施, 负责消除已经扩散出去的个人数据[
(3) 安全和隐私并重的联邦学习系统
目前对于联邦学习安全和隐私的研究都是侧重单个方面, 但在实际应用中安全威胁和隐私风险是同时存在的, 且无法通过简单叠加现有的安全防护手段和隐私保护方法进行防御, 例如差分隐私添加的噪声可能干扰安全聚合算法的检测, 同态加密的密文可能屏蔽模型更新的差异使安全聚合算法失效. 因此需要综合考虑联邦学习的安全和隐私问题, 研究安全与隐私并重的联邦学习系统. 文献[
随着联邦学习的快速发展和广泛应用, 联邦学习模型的安全和隐私问题吸引了许多学者的兴趣和关注, 产生了不少瞩目的研究成果, 但目前相关的研究还处于初级阶段, 尚有许多关键问题亟待解决. 本文在充分调研和深入分析的基础上, 对联邦学习在安全和隐私领域最新的研究成果进行综述, 系统总结了联邦学习存在的安全和隐私攻击, 并对现有的防护方法进行科学的分类和分析. 同时, 本文也指出了当前联邦学习在安全和隐私领域尚未解决的问题, 并探讨未来的研究方向.
刘俊旭, 孟小峰. 机器学习的隐私保护研究综述. 计算机研究与发展, 2020, 57(2): 346–362. [doi: 10.7544/issn1000-1239.2020.20190455]
Liu JX, Meng XF. Survey on privacy-preserving machine learning. Journal of Computer Research and Development, 2020, 57(2): 346–362 (in Chinese with English abstract). [doi: 10.7544/issn1000-1239.2020.20190455]
Regulation. Regulation (EU) 2016/679 of the European Parliament And Of The Council of 27 April 2016 on the protection of natural persons with regard to the processing of personal data and on the free movement of such data, and repealing Directive 95/46/EC (General Data Protection Regulation). Official Journal of the European Union, 2016, 119: 1–88.
http://ai.googleblog.com/2017/04/federated-learning-collaborative.html]]>
Mowla NI, Tran NH, Doh I, Chae K. Federated learning-based cognitive detection of jamming attack in flying ad-hoc network. IEEE Access, 2020, 8: 4338–4350. [doi: 10.1109/ACCESS.2019.2962873]
Duan R, Boland MR, Liu ZX, Liu Y, Chang HH, Xu H, Chu HT, Schmid CH, Forrest CB, Holmes JH, Schuemie MJ, Berlin JA, Moore JH, Chen Y. Learning from electronic health records across multiple sites: A communication-efficient and privacy-preserving distributed algorithm. Journal of the American Medical Informatics Association, 2020, 27(3): 376–385. [doi: 10.1093/jamia/ocz199]
Li ZY, Roberts K, Jiang XQ, Long Q. Distributed learning from multiple EHR databases: Contextual embedding models for medical events. Journal of Biomedical Informatics, 2019, 92: 103138. [doi: 10.1016/j.jbi.2019.103138]
Huang L, Shea AL, Qian HN, Masurkar A, Deng H, Liu DB. Patient clustering improves efficiency of federated machine learning to predict mortality and hospital stay time using distributed electronic medical records. Journal of Biomedical Informatics, 2019, 99: 103291. [doi: 10.1016/j.jbi.2019.103291]
Brisimi TS, Chen RD, Mela T, Olshevsky A, Paschalidis IC, Shi W. Federated learning of predictive models from federated electronic health records. International Journal of Medical Informatics, 2018, 112: 59–67. [doi: 10.1016/j.ijmedinf.2018.01.007]
黄倩怡, 李志洋, 谢文涛, 张黔. 智能家居中的边缘计算. 计算机研究与发展, 2020, 57(9): 1800–1809. [doi: 10.7544/issn1000-1239.2020.20200253]
Huang QY, Li ZY, Xie WT, Zhang Q. Edge computing in smart homes. Journal of Computer Research and Development, 2020, 57(9): 1800–1809 (in Chinese with English abstract). [doi: 10.7544/issn1000-1239.2020.20200253]
Yang Q, Liu Y, Chen TJ, Tong YX. Federated machine learning: Concept and applications. ACM Transactions on Intelligent Systems and Technology, 2019, 10(2): 12. [doi: 10.1145/3298981]
Phong LT, Aono Y, Hayashi T, Wang LH, Moriai S. Privacy-preserving deep learning via additively homomorphic encryption. IEEE Transactions on Information Forensics and Security, 2018, 13(5): 1333–1345. [doi: 10.1109/TIFS.2017.2787987]
Jere MS, Farnan T, Koushanfar F. A taxonomy of attacks on federated learning. IEEE Security & Privacy, 2021, 19(2): 20–28. [doi: 10.1109/MSEC.2020.3039941]
Xue MF, Yuan CX, Wu HY, Zhang YS, Liu WQ. Machine learning security: Threats, countermeasures, and evaluations. IEEE Access, 2020, 8: 74720–74742. [doi: 10.1109/ACCESS.2020.2987435]
张思思, 左信, 刘建伟. 深度学习中的对抗样本问题. 计算机学报, 2019, 42(8): 1886–1904. [doi: 10.11897/SP.J.1016.2019.01886]
Zhang SS, Zuo X, Liu JW. The problem of the adversarial examples in deep learning. Chinese Journal of Computers, 2019, 42(8): 1886–1904 (in Chinese with English abstract). [doi: 10.11897/SP.J.1016.2019.01886]
Zhang JL, Chen B, Cheng X, Binh HTT, Yu S. PoisonGAN: Generative poisoning attacks against federated learning in edge computing systems. IEEE Internet of Things Journal, 2021, 8(5): 3310–3322. [doi: 10.1109/JIOT.2020.3023126]
Lecun Y, Bottou L, Bengio Y, Haffner P. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 1998, 86(11): 2278–2324. [doi: 10.1109/5.726791]
https://archive.ics.uci.edu/ml/index.php]]>
Kather JN, Weis CA, Bianconi F, Melchers SM, Schad LR, Gaiser T, Marx A, Zöllner FG. Multi-class texture analysis in colorectal cancer histology. Scientific Reports, 2016, 6: 27988. [doi: 10.1038/srep27988]
Serna CG, Ruichek Y. Classification of traffic signs: The european dataset. IEEE Access, 2018, 6: 78136–78148. [doi: 10.1109/ACCESS.2018.2884826]
https://kaggle.com/c/tiny-imagenet]]>
Sivanathan A, Gharakheili HH, Loi F, Radford A, Wijenayake C, Vishwanath A, Sivaraman V. Classifying iot devices in smart environments using network traffic characteristics. IEEE Transactions on Mobile Computing, 2019, 18(8): 1745–1759. [doi: 10.1109/TMC.2018.2866249]
https://kaggle.com/c/acquire-valued-shoppers-challenge]]>
https://kaggle.com/burak3ergun/loan-data-set]]>
Chen YD, Su LL, Xu JM. Distributed statistical machine learning in adversarial settings: Byzantine gradient descent. Proceedings of the ACM on Measurement and Analysis of Computing Systems, 2017, 1(2): 44. [doi: 10.1145/3154503]
Wu ZX, Ling Q, Chen TY, Giannakis GB. Federated variance-reduced stochastic gradient descent with robustness to byzantine attacks. IEEE Transactions on Signal Processing, 2020, 68: 4583–4596. [doi: 10.1109/TSP.2020.3012952]
Tan JJ, Liang YC, Luong NC, Niyato D. Toward smart security enhancement of federated learning networks. IEEE Network, 2021, 35(1): 340–347. [doi: 10.1109/MNET.011.2000379]
Chen ZY, Tian P, Liao WX, Yu W. Zero knowledge clustering based adversarial mitigation in heterogeneous federated learning. IEEE Transactions on Network Science and Engineering, 2021, 8(2): 1070–1083. [doi: 10.1109/TNSE.2020.3002796]
Zhao LC, Hu SS, Wang Q, Jiang JL, Shen C, Luo XY, Hu PF. Shielding collaborative learning: Mitigating poisoning attacks through client-side detection. IEEE Transactions on Dependable and Secure Computing, 2021, 18(5): 2029-2041. [doi: 10.1109/TDSC.2020.2986205]
Li YZ, Chen C, Liu N, Huang HW, Zheng ZB, Yan Q. A blockchain-based decentralized federated learning framework with committee consensus. IEEE Network, 2021, 35(1): 234–241. [doi: 10.1109/MNET.011.2000263]
Shayan M, Fung C, Yoon CJM, Beschastnikh I. Biscotti: A blockchain system for private and secure federated learning. IEEE Transactions on Parallel and Distributed Systems, 2021, 32(7): 1513–1525. [doi: 10.1109/TPDS.2020.3044223]
Zhao Y, Zhao J, Jiang LS, Tan R, Niyato D, Li ZX, Lyu LJ, Liu YB. Privacy-preserving blockchain-based federated learning for iot devices. IEEE Internet of Things Journal, 2021, 8(3): 1817–1829. [doi: 10.1109/JIOT.2020.3017377]
Liu Y, Peng JL, Kang JW, Iliyasu AM, Niyato D, El-Latif AAA. A secure federated learning framework for 5G networks. IEEE Wireless Communications, 2020, 27(4): 24–31. [doi: 10.1109/MWC.01.1900525]
Zhao Y, Xu K, Wang HY, Li B, Jia RX. Stability-based analysis and defense against backdoor attacks on edge computing services. IEEE Network, 2021, 35(1): 163–169. [doi: 10.1109/MNET.011.2000265]
Chen Y, Luo F, Li T, Xiang T, Liu ZL, Li J. A training-integrity privacy-preserving federated learning scheme with trusted execution environment. Information Sciences, 2020, 522: 69–79. [doi: 10.1016/j.ins.2020.02.037]
Peng Z, Xu JL, Chu XW, Gao S, Yao Y, Gu R, Tang YZ. VFChain: Enabling verifiable and auditable federated learning via blockchain systems. IEEE Transactions on Network Science and Engineering, 2022, 9(1): 173–186. [doi: 10.1109/TNSE.2021.3050781]
Qu YY, Pokhrel SR, Garg S, Gao LX, Xiang Y. A blockchained federated learning framework for cognitive computing in industry 4.0 networks. IEEE Transactions on Industrial Informatics, 2021, 17(4): 2964–2973. [doi: 10.1109/TII.2020.3007817]
Jain AK. Data clustering: 50 years beyond K-means. Pattern Recognition Letters, 2010, 31(8): 651–666. [doi: 10.1016/j.patrec.2009.09.011]
Barreno M, Nelson B, Joseph AD, Tygar JD. The security of machine learning. Machine Learning, 2010, 81(2): 121–148. [doi: 10.1007/s10994-010-5188-5]
Bentov I, Lee C, Mizrahi A, Rosenfeld M. Proof of activity: Extending bitcoin’s proof of work via proof of stake [extended abstract]y. ACM SIGMETRICS Performance Evaluation Review, 2014, 42(3): 34–37. [doi: 10.1145/2695533.2695545]
http://www.jos.org.cn/1000-9825/5594.htm]]>
http://www.jos.org.cn/1000-9825/5594.htm]]>
Kang JW, Xiong ZH, Niyato D, Zou YZ, Zhang Y, Guizani M. Reliable federated learning for mobile networks. IEEE Wireless Communications, 2020, 27(2): 72–80. [doi: 10.1109/MWC.001.1900119]
Guo XJ, Liu ZL, Li J, Gao JQ, Hou BY, Dong CY, Baker T. VeriFL: Communication-efficient and fast verifiable aggregation for federated learning. IEEE Transactions on Information Forensics and Security, 2021, 16: 1736–1751. [doi: 10.1109/TIFS.2020.3043139]
http://www.jos.org.cn/1000-9825/6147.htm]]>
http://www.jos.org.cn/1000-9825/6147.htm]]>
http://www.jos.org.cn/1000-9825/6131.htm]]>
http://www.jos.org.cn/1000-9825/6131.htm]]>
http://www.jos.org.cn/1000-9825/6052.htm]]>
http://www.jos.org.cn/1000-9825/6052.htm]]>
Song MK, Wang ZB, Zhang ZF, Song Y, Wang Q, Ren J, Qi HR. Analyzing user-level privacy attack against federated learning. IEEE Journal on Selected Areas in Communications, 2020, 38(10): 2430–2444. [doi: 10.1109/JSAC.2020.3000372]
Shen M, Wang H, Zhang B, Zhu LH, Xu K, Li Q, Du XJ. Exploiting unintended property leakage in blockchain-assisted federated learning for intelligent edge computing. IEEE Internet of Things Journal, 2021, 8(4): 2265–2275. [doi: 10.1109/JIOT.2020.3028110]
张钰, 刘建伟, 左信. 多任务学习. 计算机学报, 2020, 43(7): 1340–1378. [doi: 10.11897/SP.J.1016.2020.01340]
Zhang Y, Liu JW, Zuo X. Survey of multi-task learning. Chinese Journal of Computers, 2020, 43(7): 1340–1378 (in Chinese with English abstract). [doi: 10.11897/SP.J.1016.2020.01340]
Russakovsky O, Deng J, Su H, Krause J, Satheesh S, Ma S, Huang ZH, Karpathy A, Khosla A, Bernstein M, Berg AC, Fei-Fei L. ImageNet large scale visual recognition challenge. International Journal of Computer Vision, 2015, 115(3): 211–252. [doi: 10.1007/s11263-015-0816-y]
https://www.yelp.com/dataset]]>
Yang DQ, Zhang DQ, Chen LB, Qu BQ. NationTelescope: Monitoring and visualizing large-scale collective behavior in lbsns. Journal of Network and Computer Applications, 2015, 55: 170–180. [doi: 10.1016/j.jnca.2015.05.010]
https://www.dshs.texas.gov/THCIC/Hospitals/Download.shtm]]>
董业, 侯炜, 陈小军, 曾帅. 基于秘密分享和梯度选择的高效安全联邦学习. 计算机研究与发展, 2020, 57(10): 2241–2250. [doi: 10.7544/issn1000-1239.2020.20200463]
Dong Y, Hou W, Chen XJ, Zeng S. Efficient and secure federated learning based on secret sharing and gradients selection. Journal of Computer Research and Development, 2020, 57(10): 2241–2250 (in Chinese with English abstract). [doi: 10.7544/issn1000-1239.2020.20200463]
Li Y, Zhou YP, Jolfaei A, Yu DJ, Xu GC, Zheng X. Privacy-preserving federated learning framework based on chained secure multiparty computing. IEEE Internet of Things Journal, 2021, 8(8): 6178–6186. [doi: 10.1109/JIOT.2020.3022911]
熊平, 朱天清, 王晓峰. 差分隐私保护及其应用. 计算机学报, 2014, 37(1): 101–122. [doi: 10.3724/SP.J.1016.2014.00101]
Xiong P, Zhu TQ, Wang XF. A survey on differential privacy and applications. Chinese Journal of Computers, 2014, 37(1): 101–122 (in Chinese with English abstract). [doi: 10.3724/SP.J.1016.2014.00101]
Huang XX, Ding Y, Jiang ZL, Qi SH, Wang X, Liao Q. DP-Fl: A novel differentially private federated learning framework for the unbalanced data. World Wide Web, 2020, 23(4): 2529–2545. [doi: 10.1007/s11280-020-00780-4]
Zhao Y, Zhao J, Yang MM, Wang T, Wang N, Lyu LJ, Niyato D, Lam KY. Local differential privacy-based federated learning for internet of things. IEEE Internet of Things Journal, 2021, 8(11): 8836–8853. [doi: 10.1109/JIOT.2020.3037194]
Wu MQ, Ye DD, Ding JH, Guo YX, Yu R, Pan M. Incentivizing differentially private federated learning: A multidimensional contract approach. IEEE Internet of Things Journal, 2021, 8(13): 10639–10651. [doi: 10.1109/JIOT.2021.3050163]
http://www.jos.org.cn/1000-9825/5354.htm]]>
http://www.jos.org.cn/1000-9825/5354.htm]]>
Zhou J, Cao ZF, Dong XL, Lin XD. PPDM: A privacy-preserving protocol for cloud-assisted e-healthcare systems. IEEE Journal of Selected Topics in Signal Processing, 2015, 9(7): 1332–1344. [doi: 10.1109/JSTSP.2015.2427113]
Chai D, Wang LY, Chen K, Yang Q. Secure federated matrix factorization. IEEE Intelligent Systems, 2021, 36(5): 11–20. [doi: 10.1109/MIS.2020.3014880]
Fang C, Guo YB, Wang N, Ju AK. Highly efficient federated learning with strong privacy preservation in cloud computing. Computers & Security, 2020, 96: 101889. [doi: 10.1016/j.cose.2020.101889]
Hao M, Li HW, Luo XZ, Xu GW, Yang HM, Liu S. Efficient and privacy-enhanced federated learning for industrial artificial intelligence. IEEE Transactions on Industrial Informatics, 2020, 16(10): 6532–6542. [doi: 10.1109/TII.2019.2945367]
Brakerski Z, Gentry C, Vaikuntanathan V. (Leveled) fully homomorphic encryption without bootstrapping. ACM Transactions on Computation Theory, 2014, 6(3): 13. [doi: 10.1145/2633600]
Fang C, Guo YB, Hu YJ, Ma BW, Feng L, Yin AQ. Privacy-preserving and communication-efficient federated learning in internet of things. Computers & Security, 2021, 103: 102199. [doi: 10.1016/j.cose.2021.102199]
Elgamal T. A public key cryptosystem and a signature scheme based on discrete logarithms. IEEE Transactions on Information Theory, 1985, 31(4): 469–472. [doi: 10.1109/TIT.1985.1057074]
Froelicher D, Troncoso-Pastoriza JR, Pyrgelis A, Sav S, Sousa JS, Bossuat JP, Hubaux JP. Scalable privacy-preserving distributed learning. Proceedings on Privacy Enhancing Technologies, 2021, 2021(2): 323–347. [doi: 10.2478/popets-2021-0030]
Mouchet C, Troncoso-Pastoriza J, Bossuat JP, Hubaux JP. Multiparty homomorphic encryption from ring-learning-with-errors. Proceedings on Privacy Enhancing Technologies, 2021, 2021(4): 291–311. [doi: 10.2478/popets-2021-0071]
Zhao B, Fan K, Yang K, Wang ZL, Li H, Yang YT. Anonymous and privacy-preserving federated learning with industrial big data. IEEE Transactions on Industrial Informatics, 2021, 17(9): 6314-6323. [doi: 10.1109/TII.2021.3052183]
So J, Güler B, Avestimehr AS. Byzantine-resilient secure federated learning. IEEE Journal on Selected Areas in Communications, 2021, 39(7): 2168–2181. [doi: 10.1109/JSAC.2020.3041404]
Chamikara MAP, Bertok P, Khalil I, Liu D, Camtepe S. Privacy preserving distributed machine learning with federated learning. Computer Communications, 2021, 171: 112–125. [doi: 10.1016/j.comcom.2021.02.014]
Xu GW, Li HW, Liu S, Yang K, Lin XD. VerifyNet: Secure and verifiable federated learning. IEEE Transactions on Information Forensics and Security, 2020, 15: 911–926. [doi: 10.1109/TIFS.2019.2929409]