汤凌韬(1994-), 男, 博士生, CCF学生会员, 主要研究领域为信息安全, 机器学习隐私保护
陈左宁(1957-), 女, 博士, 博士生导师, 中国工程院院士, CCF会士, 主要研究领域为软件理论, 操作系统, 信息安全
张鲁飞(1986-), 男, 博士, 工程师, 主要研究领域为高性能计算, 操作系统, 机器学习
吴东(1971-), 男, 博士, 研究员, 主要研究领域为人工智能, 密码学
随着大数据、云计算等领域的蓬勃发展, 重视数据安全与隐私已经成为世界性的趋势, 不同团体为保护自身利益和隐私不愿贡献数据, 形成了数据孤岛. 联邦学习使数据不出本地就可被多方利用, 为解决数据碎片化和数据隔离等问题提供了解决思路. 然而越来越多研究表明, 由谷歌首先提出的联邦学习算法不足以抵抗精心设计的隐私攻击, 因此如何进一步加强隐私防护, 保护联邦学习场景下的用户数据隐私成为一个重要问题. 对近些年来联邦学习隐私攻击与防护领域取得的成果进行了系统总结. 首先介绍了联邦学习的定义、特点和分类; 然后分析了联邦学习场景下隐私威胁的敌手模型, 并根据敌手攻击目标对隐私攻击方法进行了分类和梳理; 介绍了联邦学习中的主流隐私防护技术, 并比较了各技术在实际应用中的优缺点; 分析并总结了6类目前联邦学习的隐私保护方案; 最后指出目前联邦学习隐私保护面临的挑战, 展望了未来可能的研究方向.
With the vigorous development of areas such as big data and cloud computing, it has become a worldwide trend for the public to attach importance to data security and privacy. Different groups are reluctant to share data in order to protect their own interests and privacy, which leads to data silos. Federated learning enables multiple parties to build a common, robust model without exchanging their data samples, thus addressing critical issues such as data fragmentation and data isolation. However, more and more studies have shown that the federated learning algorithm first proposed by Google can not resist sophisticated privacy attacks. Therefore, how to strengthen privacy protection and protect users’ data privacy in the federated learning scenario is an important issue. This paper offers a systematic survey of existing research achievements of privacy attacks and protection in federated learning in recent years. First, the definition, characteristics and classification of federated learning are introduced. Then the adversarial model of privacy threats in federated learning is analyzed, and typical works of privacy attacks are classified with respect to the adversary’s objectives. Next, several mainstream privacy-preserving technologies are introduced and their advantages and disadvantages in practical applications are pointed out. Furthermore, the existing achievements on protection against privacy attacks are summarized and six privacy-preserving schemes are elaborated. Finally, future challenges of privacy preserving in federated learning are concluded and promising future research directions are discussed.
大数据的发展推动人工智能迎来的新的高峰, 然而也带来了新的问题. 一是算力问题, 愈加庞大的数据规模和愈加复杂的学习模型对训练设备和集群的算力提出了更高的要求: 二是数据问题, 训练高精度的学习模型需要大规模高质量的数据支撑, 涉及数据采集、数据清洗和数据标注等预处理工作. 高质量数据往往意味着宝贵的专家知识和大量的人力物力投入. 不同团体乃至不同行业间不肯互相贡献自身数据, 从而造成了数据源之间的壁垒, 导致有效的数据得不到整合利用. 除利益问题外, 隐私问题近几年引起了大众的关注, 如Facebook和喜达屋等机构的信息泄露事件唤醒了大众的隐私保护意识, 也给各行业敲响了警钟. 2017年《中华人民共和国网络安全法》和《中华人民共和国民法总则》正式实施, 要求网络运营者不得泄露、篡改、毁坏其收集的个人信息; 2018年欧盟施行通用数据保护条例(general data protection regulation, GDPR)也将隐私保护带入法规, 约束企业对用户数据的恣意搜集和使用. 这些在加强用户隐私保护的同时, 也一定程度阻碍了数据的分享和流通, 业界急需一种新的数据利用模式, 保证原始数据不出本地也能被有效使用.
分布式机器学习(distributed machine learning, DML)的出现为解决算力问题提供了一种解决思路, 而针对数据问题, 研究人员提出了联邦学习(federated learning, FL)的概念. 联邦学习与分布式机器学习相比, 模型训练和推理的方法并无本质差别, 而在数据集的所有权和隐私性等方面有着不同的假设和要求. 分布式学习的初衷是将同一个任务分配到多个计算节点, 通过计算并行化提高模型训练效率, 不同节点上数据集往往采样于同一个数据源, 具有相似的分布和规模; 而联邦学习更侧重于对异质化的数据集进行学习, 不同计算节点上的数据可能具有完全不同的分布, 数据规模可能相差几个量级, 同时要求对各节点的本地数据集进行一定程度的隐私保护. 总的来看, 分布式学习是同一个利益团体对同一个任务进行切分和部署从而提高计算效率, 不同设备间的数据交换是透明的; 而联邦学习是不同的团体为了共同利益进行合作, 本地数据集往往表现出差异化特征, 并且要求任一团体无法直接获取或间接感知其他团体的本地数据.
Google于2017年提出的算法FedAvg[
(1) 中心在终端节点集合中随机选择一部分节点;
(2) 被选中节点下载当前的全局模型参数;
(3) 被选中节点使用本地数据更新全局模型参数;
(4) 被选中节点将更新的模型参数汇总到中心;
(5) 中心通过特定算法聚合数据, 并更新全局模型参数;
(6) 迭代执行上述5步直到模型收敛至期望值.
其中, 模型的训练方法与传统集中式学习无较大差别, 而如何对数据进行处理、传输和汇聚, 从而防止隐私泄露, 是本文的研究重点. 文献[
然而, 越来越多研究表明, 此般平凡的聚合协议会泄露隐私, 恶意敌手可以进行重构攻击, 有效还原用户的本地数据[
联邦学习中的隐私保护是一个交叉性极强的研究方向, 要系统地厘清隐私威胁并提出防护方法需要跨学科的努力. 为达到理论安全性, 目前有大量工作引入密码学技术保护模型的训练和推理过程, 如安全多方计算(secure multi-party computation, MPC)、同态加密(homomorphic encryption, HE)、函数加密(functional encryption, FE)和差分隐私(differential privacy, DP)等. 以SGX为代表的可信执行环境(trusted execution environment, TEE)同样为联邦学习中的隐私保护提供了解决思路.
本文主要研究联邦学习中隐私问题, 总结相关研究进展. 第1节介绍联邦学习的定义, 特点和分类; 第2节分析联邦学习系统的隐私威胁模型和隐私攻击方式; 第3节介绍和对比目前主流的隐私保护技术, 及其应用于联邦学习的关键问题; 第4节分类梳理目前典型的联邦学习隐私保护方案; 第5节针对现有工作中的问题, 提出未来的挑战和展望; 第6节对全文进行总结.
联邦学习又称合作学习(collaborative machine learning), 是区别于集中式和分布式机器学习的一种新场景, 在节点规模、数据分布、隐私保护等方面有着鲜明的特征. 机器学习模型训练的本质是解决一个优化问题, 传统的优化问题及其解决方法不能直接套用于联邦学习场景. 本节主要介绍了联邦学习的定义及特征, 阐述了其与传统机器学习场景的异同, 描述了一个典型联邦学习流程, 最后对联邦学习进行了分类.
联邦学习是一种机器学习场景, 多个客户端在一个或多个中央服务器的帮助下合作解决一个机器学习问题. 每个客户端的原数据存储在本地且不对外传输. 中央服务器通过对客户端上传的参数更新进行聚合以达到学习目标.
实际应用场景中联邦学习是由任务驱动的,
The lifecycle of an FL-trained model and the various actors in a federated learning system[
联邦学习系统中的模型生命周期及各类角色[
(1) 问题识别与任务定义: 模型工程师识别实际应用中的特定问题, 描述为联邦学习系统中的任务, 并选择对应的机器学习模型.
(2) 客户端协商: 中央服务器指导客户端在本地存储必要的训练数据. 事实上, 实际情况中客户端往往已存储所需数据, 如消息发送软件已存储了用户键入的文本消息, 照片管理软件已存储了用户近期照片.
(3) 原型模拟: 模型工程师可创建模型原型架构, 并使用代理数据进行超参测试与优化.
(4) 模型学习: 中央服务器和客户端进行完整联邦学习流程, 可使用不同的超参生成多个优化模型.
(5) 模型评估: 模型经充分训练达到预期损失后, 工程师对模型进行分析评估, 并挑选好的备选模型. 评估方式可以是使用标准数据集进行测试, 或使用客户端本地数据进行联合测试.
(6) 模型部署: 待发布模型被选出后将经过一系列标准模型发布流程, 最后部署到用户节点或服务云端, 该流程与传统集中式机器学习相同.
联邦学习源于分布式优化(distributed optimization)衍生出的一个特殊场景——联邦优化(federated optimization)[
(1) 数据. 在分布式优化中, 计算节点数一般远小于数据点的数目, 每个节点访问取自相同分布的随机样本, 且拥有相同量级的样本数. 而在联邦优化中, 训练数据具有以下的异质化特征:
● 广泛分布. 数据点存储于大规模的节点集合中, 且计算节点的数目可能远大于单个节点存储的平均样本数.
● 非独立同分布. 每个节点上的数据可能都取自不同的分布, 即任一节点的本地数据都不能代表整个数据集的分布.
● 体量不均衡. 各节点可能拥有不同数量级的训练样本数目.
(2) 参与节点. 在分布式学习中, 参与节点往往属于同一团体, 运行状况稳定, 拥有充足且均衡的计算能力和存储空间. 而在联邦学习中, 不同节点往往属于不同的利益团体, 对本地数据有完全自治权, 且通讯受限的现象较为常见, 如移动设备等终端频繁离线, 联网速度慢, 通讯代价高. 另外, 节点状况参差不齐, 大量边缘节点并没有充足算力和存储空间.
(3) 隐私保护. 分布式学习可分为两类[
传统机器学习可视作如下优化问题:
其中,
文献[
FedAvg针对的是单服务器协调全局训练流程的场景, 虽无法涵盖所有应用场景及模式, 但为学者们的深入研究提供了一个范例. 该范式下, 局部训练过程与中心化学习基本一致, 研究者主要围绕中央聚合过程展开优化, 如为加强隐私保护引入安全聚合[
记矩阵
(1) 横向联邦学习(horizontal federated learning, HFL). 参与方拥有不同的样本对象, 而数据特征基本相同, 即
(2) 纵向联邦学习(vertical federated learning, VFL). 参与方拥有基本相同的样本对象, 而数据特征不同, 即
(3) 联邦迁移学习(federatde transfer learning, FTL). 参与方的样本对象和数据特征都有较大差异, 即
联邦学习的不同应用场景中参与方的数目和个体特征表现出较大差异, 根据参与节点的数目和节点特征, 可将联邦学习分为两类[
(1) 跨筒仓(cross-silo)联邦学习. 适用于大型机构间的合作学习任务, 参与节点拥有充足的计算能力和存储空间, 网络连接状况良好, 稳定在线. 每个节点上的数据规模大, 质量高, 可以是横向或纵向划分.
(2) 跨设备(cross-device)联邦学习. 适用于大量移动边缘终端设备参与的学习任务, 这些节点的算力较弱, 容量较小, 通讯代价较高, 频繁离线. 每个节点上的数据规模小, 质量高低不一, 一般是横向划分.
隐私问题是联邦学习的核心问题. 提及机器学习系统面临的威胁时, 安全与隐私往往被混为一谈. 隐私攻击是系统面临的威胁的一部分, 敌手为了窃取用户原数据或训练好的模型参数等隐私信息, 发起隐私攻击. 而安全攻击则是通过妨碍模型正常训练或诱导模型错误预测等手段, 危害系统的准确性和鲁棒性, 目前已有相关研究验证了投毒攻击(poisoning attack)和对抗攻击(adversarial attack)在联邦学习场景中的可行性[
联邦学习系统作为一个分布式系统, 其完整工作流中往往包含大量参与者, 向攻击者暴露了多个攻击点. 要分析联邦学习的安全性, 首先要厘清系统面临的隐私威胁, 包括判别敌手类型, 明确敌手攻击目标, 定义和划分系统内角色, 分析各角色的潜在攻击能力, 归纳敌手的攻击策略.
一个设计完备的信息系统应具备机密性(confidentiality)、完整性(integrity)、可用性(availability), 而隐私攻击目标则是破坏联邦学习系统的机密性, 推断和获取系统非主动暴露的信息. 这些信息可分为以下4类[
(1) 成员(membership)信息. 给定一个样本, 敌手试图判定其是否用于训练, 进一步地, 确定其属于哪一个参与方.
(2) 属性(property)信息. 敌手试图推断参与方训练数据的相关属性, 这些特征并非由样本所标记的特征和标签直接体现, 与训练主目标不相关.
(3) 类代表(class representatives). 对于攻击对象的带标签数据集, 敌手尝试生成其中某一类数据的典型训练样本, 而非还原攻击对象的确切训练数据. 典型样本与同类真实数据具有相同的特征和分布.
(4) 训练数据. 敌手试图逼近甚至还原参与方的训练数据.
在隐私保护和安全计算等领域, 一般考虑两种类型的敌手.
(1) 半诚实(honest-but-curious/semi-honest)敌手: 在半诚实敌手模型中, 敌手会如实遵守并执行通讯协议的流程, 与其他节点交互时不会篡改发送的消息, 但会尝试根据接收到的消息推断更多的信息. 此类敌手不干扰训练过程, 不影响模型完整性和可用性, 通过观察和收集相关信息来达成攻击目标.
(2) 恶意(malicious)敌手: 在恶意敌手模型中, 敌手行为不受限制, 可能不遵守协议, 恶意篡改发送的消息, 从而影响甚至破坏协议流程, 诱导其他节点泄露更多信息.
在系统设计前必须明确是防御哪一类敌手发起的隐私攻击, 现有的研究主要基于半诚实敌手假设来设计隐私保护方案, 在安全多方计算等密码学协议中, 抵抗恶意敌手往往需要大量额外的计算和通信等开销[
与传统机器学习不同, 联邦学习涉及功能和能力各异的多个参与方, 敌手可从多角度侵入并展开攻击. 根据
(1) 客户端: 操作者掌握客户端root权限, 可能是合法管理员, 或侵入攻击者. 半诚实客户端可以在参与的轮次中, 查看来自服务器的所有消息, 但不会干扰训练流程. 而恶意的客户端在查看消息的同时可能干扰训练.
(2) 服务器: 操作者掌握服务器root权限, 可能是合法管理员, 或侵入攻击者. 半诚实服务器可以查看接收到的所有消息, 但不干扰训练流程. 而恶意服务器在查看消息的同时还可能干扰训练.
(3) 模型工程师和分析人员: 可访问训练算法输出模型, 恶意的工程师或分析人员能接触到系统的多个输出, 如不同超参下的模型训练迭代.
(4) 实际需求用户: 可访问部署模型, 恶意用户或被侵入的用户节点对模型拥有黑盒访问权限.
其中, 根据敌手是否参与模型训练, 将恶意的客户端或服务器称为内部敌手(inside attacker), 将只能访问输出模型或部署模型的敌手称为外部敌手(outside attacker).
敌手知识是指敌手对于目标模型及其生成和应用环境所掌握的相关信息, 如模型结构、模型参数、训练样本分布、决策函数等. 根据敌手掌握知识的多少, 可将其攻击行为分为黑盒攻击和白盒攻击.
(1) 黑盒攻击. 敌手没有模型的相关知识, 只能观察到模型的预测结果. 对任何输入数据
(2) 白盒攻击. 敌手掌握模型的结构和权重参数, 甚至其他参与方的训练数据. 此类敌手往往属于内部敌手, 掌握良好的局部视图, 有着较高的攻击准确率. 事实上, 具体攻击场景中, 存在介于白盒与黑盒之间的攻击方案, 如敌手掌握模型的结构, 但不知道模型的具体参数[
敌手能力是指敌手在系统中各阶段所具备的权限, 在数据收集阶段, 可以是敌手直接获取训练数据的能力; 在训练阶段, 可以是敌手干预训练流程、收集中间结果的能力, 如精心构造输入影响其他节点, 观察该节点输出的变化趋势; 在推理阶段, 可以是敌手访问模型接口获取预测结果, 甚至提取模型相关信息的能力. 根据能力强弱可将敌手分为强敌手和弱敌手, 强敌手可以参与模型训练, 获取模型相关参数和用户训练数据, 弱敌手只能通过访问模型, 观察特定输出, 收集辅助信息等间接手段完成攻击.
联邦学习系统中, 敌手在全流程具备的权限越高, 拥有的攻击手段越多, 其攻击能力就越强. 据此可对联邦学习系统中的角色能力进行排序: 服务器>客户端>分析人员>用户. 服务器和客户端作为内部节点, 除了输出模型外, 还可以查看训练过程中的聚合结果, 其中服务器可以进一步查看各客户端上传的更新值; 用户和分析人员作为外部节点, 能对输出模型进行黑盒访问, 分析人员可能进一步拥有白盒权限, 观察不同超参下的多个模型. 因此, 服务器一般是强敌手, 用户一般是弱敌手, 客户端和分析人员介于两者之间, 依据实际攻击场景进行区分.
敌手的攻击目标一旦确定, 再根据敌手的角色、知识、能力等性质, 可确定其具体的攻击策略. 常见的攻击策略有5类.
(1) 重构攻击(reconstruction attack): 敌手通过观察和抽取模型训练期间的中间变量及相关特征, 重构出用户的原始训练数据.
(2) 模型窃取攻击(model extraction attack): 敌手窃取训练好的模型参数或者模型本身. 模型隐私泄露损害的是模型拥有者的利益, 一般是机器学习平台的服务提供商.
(3) 成员推断攻击(member inference attack): 敌手拥有模型的黑盒或白盒访问权限, 目标是判定一个特定样本是否属于某用户的训练集.
(4) 属性推断攻击(property inference attack): 敌手推断参与方训练数据的相关特征, 这些特征并非由样本标签和属性直接体现.
(5) 模型逆向攻击(model inversion attack): 敌手通过黑盒或白盒访问模型的输出, 反推训练数据集的相关信息.
各种攻击策略被提出时, 攻击目标和敌手能力互有交集, 如模型逆向攻击和成员推断攻击中敌手都能访问模型输出, 模型逆向攻击和重构攻击中攻击目标都是推断用户训练数据, 导致不同文献中攻击策略的分类和包含关系产生冲突, 如
Classifications of privacy attacks in different surveys
不同文献中的隐私攻击分类
文献 | 隐私攻击分类 | 文献 | 隐私攻击分类 | |
[ |
模型逆向攻击
|
[ |
模型逆向攻击
|
|
[ |
重构攻击
|
[ |
模型逆向攻击
|
根据不同的敌手模型, 学者们针对联邦学习场景展开研究, 设计并验证了多种隐私攻击的可行性和破坏性, 此处选取了13篇近几年高被引(3年内超过20次, 5年内超过100次)的研究, 如
Typical privacy attacks in federated learning
联邦学习中的典型攻击
文献 | 攻击阶段 | 敌手目标 | 敌手类型 | 敌手角色 | 敌手知识 | 敌手能力 | 攻击策略 | 目标模型 |
[ |
训练过程 | 类代表 | 恶意 | 客户端 | 白盒 | 强敌手 | 模型逆向攻击 | 神经网络 |
[ |
训练过程 | 类代表 | 半诚实/恶意 | 服务器 | 白盒 | 强敌手 | 模型逆向攻击 | 神经网络 |
[ |
推理过程 | 成员信息 | 半诚实 | 用户 | 黑盒 | 弱敌手 | 成员推断攻击 | 任意模型 |
[ |
推理过程 | 成员信息 | 半诚实 | 用户 | 黑盒 | 弱敌手 | 成员推断攻击 | 神经网络 |
[ |
推理过程 | 成员信息 | 半诚实 | 工程师/
|
白盒 | 弱敌手 | 成员推断攻击 | 任意二元分类器 |
[ |
训练过程 | 成员信息 | 半诚实/恶意 | 服务器 | 白盒 | 强敌手 | 成员推断攻击 | 神经网络 |
半诚实/恶意 | 客户端 | |||||||
[ |
训练过程 | 成员信息 | 半诚实 | 客户端 | 白盒 | 强敌手 | 成员推断攻击 | 神经网络 |
属性信息 | 属性推断攻击 | |||||||
[ |
推理过程 | 属性信息 | 半诚实 | 工程师/
|
白盒 | 弱敌手 | 属性推断攻击 | 全连接
|
[ |
训练过程 | 训练数据 | 半诚实 | 服务器 | 白盒 | 强敌手 | 重构攻击 | 神经网络 |
[ |
推理过程 | 训练数据 | 半诚实 | 工程师 | 白盒 | 弱敌手 | 模型逆向攻击 | 决策树/
|
用户 | 黑盒 | |||||||
[ |
训练过程 | 训练数据 | 半诚实 | 服务器/
|
白盒 | 强敌手 | 重构攻击 | 任意二次可微模型 |
[ |
训练过程 | 训练数据 | 半诚实 | 服务器/
|
白盒 | 强敌手 | 重构攻击 | 神经网络 |
[ |
训练过程 | 训练数据 | 半诚实 | 服务器/
|
白盒 | 强敌手 | 重构攻击 | 神经网络 |
Hitaj等人[
Wang等人[
当数据集中每个类内部成员相似时, 获取类代表与获取训练数据将取得相近的攻击效果, 然而, GAN只是生成了类的典型样本, 而非训练数据本身, 判别器无法有效区分训练样本和随机典型样本, 因此这两类攻击有着本质的区别. 例如, 目标类中是某一用户的照片, 敌手利用生成器输出的照片会呈现相似的脸, 从而判别目标用户的大致样貌, 然而给定一张真实照片, 同时按该类的分布随机生成一张照片, GAN无法辨别哪一张是真实的.
敌手可以在推理阶段获取成员信息. 通过访问输出模型和部署模型的接口, 尝试确定某样本是否属于训练集, 从而危害用户隐私, 此时攻击方式与传统机器学习场景相似.
Shokri等[
上述攻击基于两个假设: 每个影子模型与目标模型具有相同结构; 用于训练影子模型和目标模型的训练数据具有相同分布. Salem等人[
Yaghini等人[
敌手也可以在训练阶段获取成员信息. 一些学者根据联邦学习的特点设计了训练过程的攻击方法, 研究客户端上传更新值引发的信息泄露问题. 此类攻击中敌手通过观察客户端的上传数据推断特定样本的成员信息, 由于敌手知识更多、能力更强, 攻击效果也更为显著.
Melis等人[
Nasr等人[
Melis等人[
目前的属性攻击方法都有一定程度的局限性, 如, 需要额外信息的支持; 攻击的属性与训练数据本身的特征和标签相关. 前者限制了攻击方法的实用性, 后者让防御机制的设计者有迹可循, 限制了敌手的攻击效果.
目前学者们在设计联邦学习系统时, 普遍通过共享模型参数或梯度等更新值来训练模型[
Phong等人[
因此对应梯度为:
中央服务器通过计算
Zhu等人[
作者分别在计算机视觉和自然语言处理两种任务上验证了攻击的有效性, 结果表明对原数据达到了像素级和句柄级的还原. 另外, 作者对差分隐私的保护效果进行实验, 对于输入扰动, 当方差为
基于上述工作, 一些学者对DLG进行了改进. Zhao等人[
对于无法参与训练的敌手, 梯度、模型参数等中间参数是不可见的, 然而研究表明, 仅通过学习系统提供的预测接口, 敌手仍能对训练数据展开攻击. Fredrikson等人[
机器学习领域内部的技术不能很好地抵抗上述各类隐私攻击, 对此研究人员将密码学和可信硬件等技术引入联邦学习, 通过密码技术的理论安全性以及可信硬件的物理层面安全来保障用户隐私. 目前面向联邦学习的隐私保护涉及的技术主要分为3类.
(1) 加密方法: 参与方在不交换明文的情况下, 进行安全的分布式计算. 相关技术包括安全多方计算、同态加密、函数加密等. 此类方法有效隐藏了计算输入和一些中间变量, 限制了敌手获取额外知识的能力, 从而影响敌手攻击成功率甚至直接使其攻击策略失效.
(2) 扰动方法: 参与方通过对数据添加噪声等方法获取可量化的隐私保证. 典型技术为差分隐私, 保证不同训练样本对最终模型的影响一定程度上不可区分, 从而抵抗敌手获取特定数据的隐私信息.
(3) 可信硬件: 参与方将数据加密, 在可信执行环境下执行数据解密及指定计算, 通过物理层面的安全性保证敌手无法接触原数据或推理相关信息. 典型架构有intel SGX[
本节将对上述3类中的典型技术进行介绍, 包括其定义和特点, 以及应用于联邦学习的关键问题.
在一个安全多方计算协议中,
安全多方计算起源于Yao[
根据函数
(1) 基于秘密共享的运算电路. 用户数据以加法共享(additively sharing)的方式分散到参与节点. 此类协议进行加法、矩阵乘等线性代数运算时十分高效, 而进行比较等运算时开销较大. 代表性工作有BDOZ[
(2) 基于混淆电路的布尔电路. 用户数据以布尔共享(boolean-sharing)的方式分散到参与节点. 此类协议进行除法、比较、比特移位和sign()等易表示为布尔电路的运算时十分高效, 而对于加法、乘法等运算需要额外开销. 代表性工作有WRK[
除了上述通用协议, 安全多方计算也衍生出另一分支, 针对具体问题构造专用方案, 如集合求交[
安全多方计算应用于联邦学习的关键问题主要在于: (1)需针对计算类型, 选取合适的密码学工具. 安全多方计算是由同态加密、秘密共享、不经意传输、混淆电路等多种基础技术组成的综合密码学技术. 面对如全连接层等线性运算时, 可使用同态加密加速计算, 面对如激活函数等非线性运算时, 则使用混淆电路技术对布尔电路进行隐私计算. (2)优化学习模型和计算协议, 使其适应密码技术, 从而提高协议效率. 例如将浮点数据进行截断并表示为定点整型, 使用多项式近似激活函数等. (3)扩展参与方, 目前学界对安全两方计算的研究较为成熟, 而参与方增多会导致协议通信复杂度显著提升, 在跨设备联邦学习等场景下, 参与方可能是数百台终端甚至更多, 所有节点间直接进行安全多方计算是不可行的.
令消息空间
● 密钥生成函数
● 加密函数
● 解密函数
● 同态性. 算法
对于同态性, 若
同态加密方案主要分为3类[
同态加密应用于联邦学习的关键问题在于: (1) 不能进行比较、比特位移等计算, 无法支持激活函数等复杂计算. (2) FHE计算量大, 目前的硬件难以支持. (3) 很多同态加密方案是一对一的, 无法自然地应用于联邦学习的训练过程. 一些隐私保护方案让所有参与客户端共享密钥[
一个基于函数
●
●
●
●
函数加密是公钥加密的推广, 拥有私钥的人能在只接触密文
其中,
函数加密应用于联邦学习的关键问题是无法高效计算复杂函数. 目前不存在实用函数加密方案能支持高于2次的多项式[
一个随机算法
其中, 概率取自对
满足差分隐私的算法的输出对数据集中任何特定记录都不敏感, 敌手无法通过输出分布的差异推断一条数据的敏感信息, 因此可用于抵抗成员推理攻击. 差分隐私属于扰动技术, 即在模型训练中的某阶段添加一定的随机噪声, 常见的方法包括高斯机制(Gaussian mechanism)、拉普拉斯机制(Laplace mechanism)、二项式机制(binomial mechanism)、指数机制(exponential machanism). 根据添加噪声的位置可分为以下4类.
(1) 输入扰动: 对训练数据添加噪声.
(2) 算法扰动: 对算法的中间参数添加噪声.
(3) 目标扰动: 对学习算法的目标函数加噪声.
(4) 输出扰动: 对训练结果的输出参数加噪声.
与安全多方计算和同态加密等技术相比, 差分隐私机制的优点是计算复杂度低, 算法实现简单, 便于实际应用: 缺点是输出结果的偏差可能导致模型不收敛, 影响可用性, 特别是对深度学习等复杂模型, 更难平衡模型的可用性和隐私保护. 其次, 引入噪声会破坏模型本身的稀疏性, 影响模型剪枝等技术的应用. 另外, 参数
差分隐私应用于联邦学习的关键问题是平衡隐私性和可用性, 由于计算高效、部署简单等优势, 近几年差分隐私被广泛用于联邦学习的隐私保护, 然而添加噪声不可避免会影响训练的准确性, 导致模型精度降低甚至不收敛. 而在横向联邦学习中, 若中央服务器是恶意的, 差分隐私也不能完全保护训练过程, 因为当噪声较小时, 用户的训练数据仍然暴露给敌手; 当噪声较大时, 会严重影响模型收敛性[
可信执行环境(TEE)是CPU中的一块区域, 提供安全隔离执行环境(secure enclave), 能保证其中数据和代码的机密性、完整性等性质. TEE是和操作系统并行运行的独立执行环境, 并为其提供安全服务, 其中包含了一组API来满足操作系统和TEE之间的通讯. 运行在TEE中的应用可以访问主处理器和内存的全部功能, 且被保护不遭受来自操作系统的恶意攻击, TEE中运行的代码具有如下性质[
● 机密性. 除非代码本身公布一些消息, 否则其执行状态是秘密的.
● 完整性. 除非代码接受显式输入, 否则其执行过程不受影响.
● 可验证性. TEE可以向远程用户证明一段特定二进制代码正在运行, 并处于何种状态.
相比于密码学技术, TEE的效率更高. 然而, 目前将TEE技术应用于联邦学习存在一些挑战: (1)技术本身存在缺陷, 易遭受侧信道攻击和微架构瞬态执行攻击, 使得可信环境内数据机密性受到影响[
上述技术具有不同的特点, 在联邦学习中的应用也有各自的优劣势, 适用于不同的隐私保护场景. 例如, 安全多方计算、同态加密、函数加密3类加密技术通过隐藏节点间的传输数据, 阻止敌手窃取其他节点的通讯消息, 限制了敌手获取额外信息的能力, 遏制了敌手知识的增长途径, 然而无法阻止一些合法信息的暴露, 如每轮聚合结果或最终模型, 敌手仍能从这些数据推断信息, 因此这些技术常用于防范恶意客户端的攻击; 差分隐私技术通过对传输数据添加扰动, 使得敌手无法通过分析中间结果或最终模型判断特定样本是否属于训练集, 然而无法阻止敌手窃取用户通讯内容获取额外信息, 因此该技术常用于防范恶意用户和分析者的攻击; 可信执行环境保证了运行代码的机密性、完整性和可验证性, 可以防止服务器在聚合数据时篡改数据或计算逻辑, 然而本身空间受限, 适用于数据聚合等相对简单的计算, 常被用于防范恶意服务器的攻击,
Comparison of several typical privacy-preserving technologies in federated learning
联邦学习中的典型隐私保护技术对比
名称 | 技术核心 | 优点 | 缺点 |
安全多方计算 | 隐藏输入的合作计算 | 隐私性好, 适用面广 | 效率较低, 通信开销大 |
同态加密 | 密文计算 | 隐私性好, 通信开销小 | 效率较低, 计算存储开销大 |
函数加密 | 隐藏输入的特定函数计算 | 效率较高, 通信开销小 | 支持的函数复杂度受限 |
差分隐私 | 添加噪声, 随机应答 | 效率高, 部署便捷 | 影响模型精度和收敛性 |
可信执行环境 | 硬件保护代码安全执行 | 效率高, 无需诚实节点假设 | 空间受限, 易受侧信道攻击 |
上述隐私保护技术的技术核心及优缺点各不相同, 研究者应根据实际场景选用合适的技术. 事实上, 隐私保护技术并非彼此独立水火不容, 可将一种技术用于其他技术的优化, 例如, 用PHE帮助MPC在无需第三方的情况下生成乘法三元组[
目前, 许多学者基于上述技术探索了联邦学习中的隐私保护方案, 可按联邦学习类型、隐私保护技术、参与节点架构、学习模型等进行划分, 如
Classification of typical privacy-preserving schemes in federated learning
联邦学习中的典型隐私保护方案分类
分类 | 典型方案 | |||||
按联邦学习类型划分 | 参与节点类型 | 跨设备 | [ |
[ |
[ |
[ |
跨筒仓 | [ |
[ |
[ |
[ |
||
数据分布形式 | 横向联邦学习 | [ |
[ |
[ |
[ |
|
纵向联邦学习 | [ |
[ |
[ |
[ |
||
横/纵向联邦学习 | [ |
[ |
[ |
|||
联邦迁移学习 | [ |
[ |
||||
按防护过程划分 | 训练过程防护 | [ |
[ |
[ |
[ |
|
推理过程防护 | [ |
[ |
[ |
[ |
||
按学习模型划分 | 贝叶斯 | [ |
[ |
|||
支持向量机 | [ |
[ |
||||
Logistic回归 | [ |
[ |
[ |
|||
决策树 | [ |
[ |
[ |
[ |
||
[ |
[ |
[ |
||||
神经网络 | [ |
[ |
[ |
[ |
||
卷积网络 | [ |
[ |
[ |
[ |
||
按防护机制划分 | 安全聚合机制 | 基于数据加密 | [ |
[ |
[ |
[ |
基于数据扰动 | [ |
[ |
[ |
[ |
||
结合加密与扰动 | [ |
[ |
[ |
|||
安全多方机制 | 外包计算架构 | [ |
[ |
[ |
[ |
|
去中心化架构 | [ |
[ |
[ |
|||
同态加密机制 | [ |
[ |
[ |
[ |
||
可信硬件机制 | [ |
[ |
[ |
|||
安全预测机制 | 基于MPC | [ |
[ |
[ |
||
基于HE | [ |
[ |
[ |
[ |
||
结合MPC和HE | [ |
[ |
[ |
[ |
||
基于TEE | [ |
[ |
[ |
|||
模型泛化机制 | [ |
[ |
本文依据作用阶段、防护策略及所用技术, 将这些隐私保护方案分为6大类: 安全聚合机制、安全多方机制、同态加密机制、可信硬件机制、安全预测机制、模型泛化机制. 首先, 前4种机制作用于训练过程, 安全预测机制作用于推理过程, 模型泛化机制可令两个阶段同时受益. 其次, 训练过程的4种机制主要区别在于对数据的保护策略, 安全聚合机制遵循用户数据不出本地的核心思想, 通过交换中间参数进行训练. 其余3种机制则允许数据加密后传出本地, 而其特点和应用场景又因采用的技术产生区分: 安全多方机制允许数据通过安全的方式共享以进行模型训练, 同时保证其在计算过程中的隐私性, 直至计算结果公布; 同态加密机制利用密文计算技术, 保证数据加密后的隐私性和计算正确性; 可信硬件机制则通过硬件层面的安全保证计算时数据不被破解.
安全聚合机制是由第1.2.2节典型框架衍生的, 进一步加强隐私保护的模型训练方法, 也是目前横向联邦学习主流的隐私保护机制. 其典型架构为一个中央服务器和多个客户端, 服务器负责调度整个训练流程并维护全局模型, 期间每个客户端利用本地数据集对全局模型进行训练, 通过梯度下降等优化算法得到新的梯度或模型参数, 然后由服务器执行数据的安全聚合, 如
Secure aggregation scheme
安全聚合机制
由第2.2节可知, 数据聚合需要节点间的参数传递, 往往成为敌手的突破口, 因此安全聚合机制基于目前联邦学习的典型模式, 对聚合过程进行安全加固, 通过数据加密和扰动等手段防止中间参数泄露隐私, 相关方案的总结如
Typical privacy-preserving schemes of secure aggregation
安全聚合机制的典型方案
文献 | 方案类型 | 加密 | 扰动 | 聚合对象 | 学习模型 | |||||
核心技术 | 加密角色 | 解密角色 | 核心机制 | DP类型 | 作用位置 | |||||
[ |
加密 | OTP, SS | 客户端 | 服务器 | N/A | 权重 | N/A | |||
[ |
SS, PKI | 客户端 | 服务器 | 权重 | N/A | |||||
[ |
同态加密 | 客户端 | 客户端 | 梯度 | 神经网络 | |||||
[ |
HE, CRT | 客户端 | 客户端 | 梯度 | MLP | |||||
[ |
对称密码 | 客户端 | 客户端 | 权重 | 神经网络 | |||||
[ |
扰动 | N/A | 高斯机制 | 中心化 | 输出扰动 | 权重 | 神经网络 | |||
[ |
二项式机制 | 本地化 | 输入扰动 | 梯度 | 神经网络 | |||||
[ |
拉普拉斯
|
本地化 | 目标扰动 | 梯度 | 感知机,
|
|||||
[ |
高斯机制 | 本地化 | 输入扰动 | 权重 | MLP | |||||
[ |
混合 | 同态加密 | 客户端 | 客户端 | 高斯机制 | 本地化 | 输入扰动 | 质询数据 | DTs, CNN, SVM | |
[ |
同态加密 | 客户端 | 客户端 | 拉普拉斯
|
本地化 | 输入扰动 | 梯度 | 神经网络 | ||
[ |
函数加密 | 客户端 | 服务器 | 高斯机制 | 本地化 | 输入扰动 | 权重 | CNN |
安全聚合的一种方式是加密客户端上传的数据, 服务器对密文进行聚合, 只向服务器暴露聚合的结果, 从而减小暴露个体隐私的风险. 相关技术有安全多方计算、同态加密、函数加密、公钥加密等.
Bonawitz等人[
并将
从而求得正确的聚合结果, 并且
Phong等人[
Phuong等人[
安全聚合的另一种方式是利用差分隐私, 对客户端的数据添加扰动, 从而使敌手无法识别特定客户端贡献的数据, 根据添加噪声的位置一般分为中心化模型和本地化模型两种.
中心化模型中每个客户端将它们未受保护的数据发送给一个可信的中央服务器, 服务器在聚合这些数据时添加噪声. Geyer等人[
本地化模型中每个客户端先对数据添加噪声, 再将其发送给一个不可信的中央服务器进行聚合. Agarwal等[
上述两类方案存在各自的缺陷, 基于数据加密的方案效率较低, 且无法有效抵抗模型API处发起的推断攻击, 而基于数据扰动的方案当噪声方差较小时仍会暴露原数据的信息, 方差较大时导致模型可用性丧失, 特别是参与方数目多, 而数据量小时, 精度下降明显. 对此, 一些研究人员提出了结合加密与扰动的安全聚合方案.
Truex等人[
Xu等人[
安全多方机制是指参与方通过安全多方计算、同态加密等技术直接构建一个多方计算协议, 共同训练机器学习模型的方法. 其关键在于为学习算法中每个底层算子选取合适的密码学工具, 并针对性地进行优化. 根据参与节点架构区分, 本文将目前基于安全多方机制的联邦学习训练方案分为两类: 外包计算架构和去中心化架构. 其中, 外包计算架构中客户端作为数据拥有者, 将学习任务外包给服务器, 服务器作为计算节点进行模型训练; 去中心化架构中, 参与方既是数据拥有者也是计算执行者, 在无可信第三方协助的情况下完成训练任务.
外包计算架构中数据拥有者将训练集通过秘密共享技术安全地发布至多个计算节点, 由计算节点共同完成训练任务. 其典型架构为
Outsourced training scheme
外包训练机制
由第3.1节可知, 对于不同类型的计算, 应选取合适的电路表示和数据共享方法来减少额外开销. Demmler等人[
ABY提供了3种数据共享方式以提高面对不同计算时的执行效率, 但没有友好的编程接口, 造成了编码人员和密码学者间的鸿沟. Chandran等人[
模型精度是衡量学习算法的重要指标, SecureML为了计算效率, 在训练神经网络时使用一种线性分段函数替代原有的激活函数, 这种方法会导致一定的精度损失. Liu等人[
此类工作的另一个研究重点是提高训练效率. SecureML中为提高离线阶段的效率, 引入了可信第三方帮助生成Beaver三元组. 借鉴此思想, Riazi等人[
一些研究也对参与服务器的数目进行了拓展. Mohassel等人[
去中心化架构中所有参与方既是数据拥有者也是计算执行者, 且无需可信第三方, 其架构如
Decentralized training scheme
去中心化训练机制
数据挖掘领域中已有学者研究去中心化架构的模型学习方法, 参与方各自拥有隐私数据, 利用安全多方计算合作进行聚类、分类等任务. 针对纵向划分的数据集. Vaidya等人[
加强敌手假设会导致额外的计算和通信开销, 因此目前大多基于MPC的隐私保护方案只能抵抗半诚实敌手, 而Zheng等人[
还有一类方案并不直接应用密码工具, 而是通过顺序计算并由安全信道传输权重的方式达到相似效果, 敌手恢复客户端梯度或样本的难度相当于求解NPC问题. Phuong等人[
同态加密机制是指利用同态加密技术保证参与方间只进行密文传输的隐私保护方法. 由第3.2节可知, 现有的同态加密方案不易直接应用于诸如跨设备横向联邦学习等涉及大规模节点的场景. 目前同态加密机制主要用于两方的纵向联邦学习和联邦迁移学习.
对于纵向联邦学习, 一般假设参与方是半诚实的, 同态加密机制一般分为两个步骤.
(1) 隐私实体匹配[
(2) 加密模型训练. 参与双方通过同态加密技术加密和交换中间结果, 用于计算梯度, 具有标签的一方还需要计算损失. 显然, 为保护各自数据隐私, 双方不能共享同一密钥对, 因此该过程一般需要引入一个可信第三方C创建和分发密钥, 并协助中间结果的交换. 本地加密梯度和损失计算完成后, A, B双方加上一个加密的随机掩码再上传给C, 防止其解密结果并窃取信息. 最后C进行解密将混淆后的梯度明文发回, A和B去除掩码得到真实梯度, 据此更新模型.
根据上述流程, Yang等人[
由于同态加密本身的性质, 面对非线性模型时, 一般需要对计算的函数进行多项式近似. Hardy等人[
由于AHE无法直接计算公式(12), 作者利用其二次Taylor展开作为近似
于是, 梯度的安全计算方法如
Secure gradient computing algorithm in ref[
文献[
阶段 | 执行方 | 执行内容 |
1 | 发送模型参数
|
|
2 | 选择batch
|
|
3 | 计算
|
|
4 | 计算
|
|
5 | 拼接
|
对于联邦迁移学习, 参与双方面临样本对象和特征重叠较少的问题, 该场景下, 学习算法的目的是从信息丰富的源域
可信硬件机制是指利用TEE保证学习算法在不可信环境下安全运行的隐私保护方法. 其架构为一台带TEE的中央服务器和多个客户端, 敌手可能控制服务器和客户端, 但无法观察和篡改可信环境的内部状态. TEE的空间受限, 只能执行有限的代码段, 而在外部执行的代码仍可能受到敌手的监控、推断和篡改, 所以此类方法的关键在于对学习算法进行精心设计和改造, 保证可信硬件能容纳核心代码, 且与内存、硬盘等外部环境的交互不会泄露隐私信息.
Ohrimenko等人[
Privacy-preserving collaborative learning scheme based on TEE[
基于可信执行环境的隐私保护合作学习方案[
上述方案本质上是利用加密技术和可信执行环境, 将数据集中到服务器并进行训练, 同时保证全流程的数据隐私不外泄. 而Lin等人[
由于TEE空间受限, 应用于执行更容易受隐私攻击的计算步骤, 以深度神经网络为例, Mo等人[
安全预测机制是指利用加密和可信硬件等技术隐藏推理过程中用户输入数据, 从而保护用户隐私的方法. 当训练结束得到可用模型后, 一个重要应用场景是将模型部署至云端, 由服务提供商向用户提供预测服务(prediction-as-a-service, PaaS). 该场景下, 既要保护推理过程的计算正确性, 又要防止用户数据被服务提供商窃取.
具备隐私保护的PaaS可自然地看作一个安全两方计算的过程, 如
Private prediction based on 2PC
基于两方计算的安全预测
由于预测的底层算子集合往往是训练算子集合的一个子集, 很多研究在设计基于MPC的安全训练协议时, 也实现了安全预测过程. 如前文中的SecureML[
同态加密提供密文计算的特性天然切合安全预测机制的需求. 用户加密待预测数据并上传, 服务商对密数据进行运算并返回加密结果, 用户对结果进行解密从而获取预测标签, 如
Private prediction based on HE
基于同态加密的安全预测
Bost等人[
为充分提高协议效率, 学者们往往将GC、SS、OT、HE等技术结合起来. 前文中的MiniONN[
具备可信执行环境的云端服务器向用户提供远程证明后, 可提供受信任的安全预测服务. Hunt等人[
Grover等人[
Private prediction based on TEE[
基于可信执行环境的安全预测[
学习模型易受隐私攻击的根本原因是泛化性不强, 训练过程是信息从训练数据向模型转化的过程, 因此模型在某种程度上“记住”了原数据中的相关信息, 特别当过拟合时, 其面对训练数据和非训练数据表现出明显差异[
(1) L1&L2正则化[
然后针对新的损失函数进行参数优化.
(2) dropout[
(3) 早停(early stopping)[
(4) 数据扩增(data augmentation)[
(5) 模型堆叠(model stacking)[
模型泛化机制在黑盒场景下, 面对半诚实敌手时具有较好的表现. 然而当面临恶意敌手, 或敌手具有白盒攻击权限时, 若不对模型本身或交互中的信息进行保护, 依然容易发生隐私泄露.
根据隐私性、高效性、可扩展性、适用场景等方面, 对本节隐私方案的横向对比总结如
A summary of privacy-preserving schemes
隐私保护方案总结
方案类型 | 隐私保护 | 方案效率 | 模型精度 | 可扩展性 | 典型适用场景 | 主要保护对象 | |
安全聚合机制 | 基于加密 | 较强 | 较高 | 高 | 较强 | 跨设备
|
训练数据 |
基于扰动 | 较强 | 高 | 较低 | 强 | 成员信息/属性信息 | ||
混合 | 强 | 较高 | 较高 | 较强 | 训练数据/成员信息 | ||
安全多方机制 | 外包计算 | 强 | 较低 | 高 | 强 | 跨筒仓
|
训练数据/类代表/
|
去中心化 | 较强 | 较低 | 较高 | 较强 | 跨设备
|
训练数据 | |
同态加密机制 | 强 | 较低 | 较高 | 弱 | 跨筒仓
|
训练数据/成员信息 | |
可信硬件机制 | 较强 | 高 | 高 | 较弱 | 跨筒仓
|
训练数据 | |
安全预测机制 | 强 | 较高 | N/A | 任意两方推理场景 | 训练数据 | ||
模型泛化机制 | 较强 | 高 | 任意训练场景 | 成员信息 |
(1) 安全聚合机制允许客户端在本地进行训练, 实现了数据并行, 将算力和存储空间的需求分摊到了各计算节点, 在深度学习等任务中极为高效, 且具有可扩展性高、容忍节点掉线等优点. 然而, 每轮训练中客户端与服务器间的交互更易引起隐私泄露, 因此对中间变量的保护提出了更高的要求. 另外, 要求客户端本身具有一定的计算和存储能力. 此类方案适合包含大规模节点的跨设备横向联邦学习场景.
(2) 安全多方机制通过加密手段隐藏了计算的中间变量, 只暴露最终输出, 具有极强的理论安全性. 外包计算架构的方案由于客户端无需参与训练过程, 因此同样可容忍用户掉线, 且具备高可扩展性. 此类方案中, 秘密共享的数据可通过MPC协议执行任意计算, 适用于任意场景. 然而由于计算压力全部集中于服务器集群, 当训练数据总体规模很大时, 因未能充分利用客户端的计算能力以及密码协议本身的复杂性, 训练效率会显著降低. 而去中心化架构的方案中, 所有参与节点也是计算节点, 计算和通信负担较重, 对节点要求很高, 适合参与节点为大型机构的跨筒仓联邦学习场景.
(3) 同态加密机制应用于两方的纵向和迁移学习场景, 加密参与方之间所有通讯内容, 具有很强的隐私性. 由于参与方的限制以及同态加密技术本身的计算开销, 适合应用于跨筒仓联邦学习, 可扩展性不强.
(4) 可信硬件机制利用TEE保证了在不可信服务器上计算的隐私性, 相较于密码学方案效率较高, 由于TEE本身空间受限, 目前此类方案不支持多方参与且数据集规模较大的场景, 可扩展性较弱. 且TEE本身易受侧信道攻击, 不具备密码学协议的理论安全性.
(5) 安全预测机制可看作一个隐私保护的两方计算场景, 第3节中的多数技术都可以应用于此, 其特点主要随应用的技术而产生差异. 此类方案适用于任何场景, 如跨设备联邦学习中输出模型部署到云端向用户提供服务, 或跨筒仓联邦学习中一个机构向其他机构提供预测服务.
(6) 模型泛化机制通过对模型本身或训练方法的改造增强其隐私性, 相比于上述机制, 总体复杂度较低, 效率高, 在实际应用中往往能取得较好的效果, 且泛用性强, 与其他隐私保护技术相兼容.
目前联邦学习尚处于研究起步阶段, 不同于传统机器学习中的隐私问题, 新的攻击形式和场景需求对隐私保护提出了更严苛的挑战. 本文结合现有工作中的问题, 指出联邦学习中隐私保护面临的挑战, 并提出未来值得研究的方向.
保护用户隐私是联邦学习的核心, 然而随着隐私保护程度的增强, 会不可避免地提高学习算法的复杂性, 并引入额外的计算和通信开销, 从而降低模型精度和算法效率. 因此, 如何加强隐私性、可用性和高效性, 同时平衡好三者间的关系, 成为联邦学习隐私保护的一大挑战. 未来可从如下几个方面开展工作.
(1) 从隐私保护技术入手, 解决其内部短板, 并进行针对性优化. 以加密技术为例, 其瓶颈在于计算和通信开销过大影响可用性, 如MPC中OT和SS技术通信复杂度较高, FHE技术计算复杂度极高, 这些都影响了隐私保护方案的整体效率. 对此可以展开两类研究: 一方面是根据具体的机器学习任务进行技术优化, 如QUOTIENT[
(2) 从系统设计入手, 结合多种技术, 弥补技术短板. 隐私保护技术中, 加密技术可以有效保护算法的中间变量, 但不能掩盖数据本身的统计特征; 差分隐私可以抵抗敌手对特定样本的识别, 但作为一种有损运算, 会造成精度损失; TEE在保证代码执行安全的同时, 具备较高的效率, 然而本身易受各类侧信道攻击. 因此, 如何根据给定场景和具体任务, 有针对性地选用并结合这些技术, 形成一个完备且实用的隐私保护联邦学习系统, 值得进一步研究.
(3) 从模型入手, 从本质上加强模型的隐私保护能力. 在关注训练和推理过程中数据和通信的隐私保护时, 如何提高模型本身的泛化能力, 也是一个重要的研究点. 利用正则化技术防止过拟合, 可以有效减小模型在成员和非成员数据集上表现的差异性, 这一类方法可以兼容第3节中任意一种隐私保护技术, 因此值得开展广泛研究.
(4) 从机器学习理论入手, 提高算法效率. 联邦学习对于网络带宽、计算参与方的内存和算力等都提出了较高的要求, 尤其是面临深度神经网络等复杂模型. 目前有一些工作使用模型压缩技术[
(5) 从应用场景入手, 针对实际需求选取合适的安全假设及对应隐私保护方案. 目前大多隐私保护方案只能抵抗半诚实敌手, 而抵恶意敌手的方案往往需要负担额外的计算和通信代价. 设计系统前须明确应用场景和需求, 合理降低安全假设, 从而减小方案复杂度.
联邦学习的隐私攻击和隐私保护方法相互对抗、相互促进, 成螺旋上升的发展趋势, 然而仍未建立起统一的隐私度量标准.
从整体来看, 缺乏对联邦学习系统隐私保护的评估标准, 研究人员无法准确评判设计方案的效果, 用户也无法获知自身在系统内的受保护程度. 目前已有学者展开隐私量化问题的研究[
从局部来看, 缺乏系统内各环节隐私泄露风险的评估体系, 例如, 安全聚合机制需要服务器聚合客户端的上传参数, 添加输入混淆等方法固然能隐藏用户的上传数据, 但服务器仍能观察到每轮的聚合结果, 并据此发掘用户上传参数的统计特征, 甚至发起白盒推断攻击. 如何评估暴露此类中间参数带来的隐患, 需要进一步研究. 另外, 研究人员无法量化引入特定技术对隐私保护的增强程度, 建立完善的隐私度量体系有助于指导隐私保护技术的选择和局部优化.
目前的联邦学习算法大多依赖可信或半诚实的第三方, 例如, 安全聚合机制需要中央服务器进行参数聚合; 基于外包计算架构的安全多方机制需要多个服务器运行安全多方计算协议; 同态加密机制需要可信第三方协助加密训练; 可信硬件机制需要支持TEE的服务器执行可信计算.
然而这种架构在实际应用中可能出现各种问题: (1)不存在满足安全假设的可信第三方, 如安全聚合机制中服务器被敌手侵入, 外包架构的安全多方机制中服务器合谋等; (2)第三方节点故障, 如安全聚合机制中服务器失效, 不正确的全局模型进一步损坏各客户端的本地模型. 因此, 如何在参与方互不信任, 且无第三方协助的情况下完成联邦学习, 是未来研究中的一个挑战.
目前有一些去中心化架构的隐私保护方案已在第4.2.2节中进行讨论, 然而, 其中大都只面向小规模参与节点. 文献[
各类移动边缘设备存储着海量数据, 将这些数据利用起来挖掘有价值的信息, 是一个很有意义的课题, 然而这些设备大多面临在线时间不稳定、计算和存储能力受限、通讯状况不佳等问题. 如何在这些限制下完成联邦学习, 同时提供隐私保护是个不小的难题. 事实上, 目前学者已对此开展了一些研究, 然而并不足以全面的解决这些问题. 例如, 文献[
目前, 基于外包计算架构的安全多方机制和可信硬件机制有希望解决上述问题, 边缘设备完成隐私数据分享后, 无需承担计算任务, 极大减小了负担. 然而这两种机制都需要保证计算服务器的诚实性和可靠性, 一旦计算服务器腐化或故障, 会导致数据失窃或模型错误. 相较而言, 安全聚合机制和基于去中心化架构的安全多方机制中, 终端真正享有数据自治权, 不将原始数据以任何形式送出本地, 但终端仍需负担计算任务, 因此需进一步研究减小计算和通信复杂度的方法.
总的来说, 在设备能力受限的前提下, 隐私保护技术为联邦学习系统引入了额外的计算和通信开销, 进一步加重了节点负担, 因此, 设计实用化的面向移动边缘设备的联邦学习隐私保护方案, 是未来的一个挑战.
目前隐私攻击和隐私保护方案大都针对横向联邦学习, 而纵向联邦学习和联邦迁移学习的相关文献较少. 例如, 安全聚合机制就是横向联邦学习的隐私保护方案, 该场景下所有用户的数据特征都是相同的, 具有一定对称性. 而在纵向联邦学习中, 用户数据形式不对称, 可能只有一方拥有数据标签, 目前并不清楚该用户在隐私攻击中是否具有更强的攻击能力, 或是在隐私保护中是否应受到更强的保护, 迁移学习场景更加剧了这种不对称性. 诸如此类的问题还有很多, 故未来需要加强这两种场景下隐私攻击和隐私保护方案的研究.
与数值型的数据集不同, 联邦学习中图像类数据更容易受到隐私攻击, 由第2.2.1节可知, 敌手试图获取类代表时, 可利用GAN生成与原数据具有相似分布的数据, 当目标数据是用户照片时, 敌手可生成极其相似的图片, 从而识别目标人物, 而对于数值型数据, 复现相似分布的类代表无法达到相同的攻击效果. 因此一些传统的隐私保护技术不能直接用于保护图像数据的隐私, 例如, 由于敌手的目标不是识别和恢复原始数据, 差分隐私等技术无法抵抗此类攻击. 研究新的方法和技术来保护图像数据的隐私, 是很有意义的方向.
数据是有价值的, 隐私保护机制保证了参与方贡献数据过程的私密性, 却没有提供相应激励, 特别是在跨设备联邦学习场景中, 参与方不能因贡献数据获得直接的回报, 从而丧失参与的动力. 例如Google等公司希望收集用户手机的文本记录用于训练词预测模型, 从长远来看有助于所有用户获得更好的输入体验, 而由于缺乏直接的激励机制, 且参与学习过程本身存在计算、通信和存储开销, 即使数据隐私得以保证, 很多用户仍会拒绝参与联邦学习. 进一步的, 参与节点间的公平性准则有待建立, 在联合学习过程中, 需要准确衡量每个参与方的贡献, 如本地数据的数量和质量, 以及对全局模型精度的贡献度, 并根据参与方贡献给予等比例的回报, 这也有助于促进参与方持续提供高质量的数据. 因此, 在保护用户隐私的前提下, 建立行之有效的激励机制和公平性准则, 是保证用户积极参与联邦学习的关键.
联邦学习的出现有效解决了数据孤岛的问题, 充分挖掘了边缘设备、移动设备中存储数据的价值, 然而敌手可通过隐私攻击获取训练数据的相关信息, 严重威胁了正常的训练和推理过程, 危害参与方的隐私权益, 为联邦学习的系统设计及相关标准的制定带来了巨大挑战.
本文深入分析了联邦学习的定义、特点和分类, 描述了联邦学习系统可能面临隐私攻击的敌手模型和攻击类型, 总结并分析了隐私攻击和隐私保护的最新研究, 对联邦学习中的隐私保护方法进行归纳和抽象, 并指出了现有方案中存在的问题, 探讨了未来的挑战和值得研究的方向. 总之, 在平衡好隐私保护、模型精度和算法效率的前提下, 如何根据特定应用场景设计有针对性的隐私保护方案, 最小化用户隐私泄露风险, 是一个长期的挑战, 需要持续跟进与研究.
Phong LT, Aono Y, Hayashi T, Wang LH, Moriai S. Privacy-preserving deep learning via additively homomorphic encryption. IEEE Transactions on Information Forensics and Security, 2018, 13(5): 1333–1345. [doi: 10.1109/TIFS.2017.2787987]
Kairouz P, McMahan HB, Avent B, Bellet A, Bennis M, Bhagoji AN, Bonawitz K, Charles Z, Cormode G, Cummings R, D'Oliveira RGL, Eichner H, El Rouayheb S, Evans D, Gardner J, Garrett Z, Gascon A, Ghazi B, Gibbons PB, Gruteser M, Harchaoui Z, He CY, He L, Huo ZY, Hutchinson B, Hsu J, Jaggi M, Javidi T, Joshi G, Khodak M, Konecny J, Korolova A, Koushanfar F, Koyejo S, Lepoint T, Liu Y, Mittal P, Mohri M, Nock R, Ozgur A, Pagh R, Qi H, Ramage D, Raskar R, Raykova M, Song D, Song WK, Stich SU, Sun ZT, Suresh AT, Tramer F, Vepakomma P, Wang JY, Xiong L, Xu Z, Yang Q, Yu FX, Yu H, Zhao S. Advances and open problems in federated learning. Foundations and Trends® in Machine Learning, 2021, 14(1–2): 1–210. [doi: 10.1561/2200000083]
Yang Q, Liu Y, Chen TJ, Tong YX. Federated machine learning: Concept and applications. ACM Transactions on Intelligent Systems and Technology, 2019, 10(2): 12. [doi: 10.1145/3298981]
http://www.jos.org.cn/1000-9825/6052.htm]]>
http://www.jos.org.cn/1000-9825/6052.htm]]>
Xing EP, Ho QR, Dai W, Kim JK, Wei JL, Lee S, Zheng X, Xie PT, Kumar A, Yu YL. Petuum: A new platform for distributed machine learning on big data. IEEE Transactions on Big Data, 2015, 1(2): 49–67. [doi: 10.1109/TBDATA.2015.2472014]
何英哲, 胡兴波, 何锦雯, 孟国柱, 陈恺. 机器学习系统的隐私和安全问题综述. 计算机研究与发展, 2019, 56(10): 2049–2070. [doi: 10.7544/issn1000-1239.2019.20190437]
He YZ, Hu XB, He JW, Meng GZ, Chen K. Privacy and security issues in machine learning systems: A survey. Journal of Computer Research and Development, 2019, 56(10): 2049–2070 (in Chinese with English abstract). [doi: 10.7544/issn1000-1239.2019.20190437]
刘俊旭, 孟小峰. 机器学习的隐私保护研究综述. 计算机研究与发展, 2020, 57(2): 346–362. [doi: 10.7544/issn1000-1239.2020.20190455]
Liu JX, Meng XF. Survey on privacy-preserving machine learning. Journal of Computer Research and Development, 2020, 57(2): 346–362 (in Chinese with English abstract). [doi: 10.7544/issn1000-1239.2020.20190455]
http://www.jos.org.cn/1000-9825/5904.htm]]>
http://www.jos.org.cn/1000-9825/5904.htm]]>
Jochems A, Deist TM, El Naqa I, Kessler M, Mayo C, Reeves J, Jolly S, Matuszak M, Ten Haken R, Van Soest J, Oberije C, Faivre-Finn C, Price G, De Ruysscher D, Lambin P, Dekker A. Developing and validating a survival prediction model for NSCLC patients through distributed learning across 3 countries. International Journal of Radiation Oncology, Biology, Physics, 2017, 99(2): 344–352. [doi: 10.1016/j.ijrobp.2017.04.021]
Jochems A, Deist TM, van Soest J, Eble M, Bulens P, Coucke P, Dries W, Lambin P, Dekker A. Distributed learning: Developing a predictive model based on data from multiple hospitals without data leaving the hospital–a real life proof of concept. Radiotherapy and Oncology, 2016, 121(3): 459–467. [doi: 10.1016/j.radonc.2016.10.002]
Naor M, Pinkas B. Oblivious polynomial evaluation. SIAM Journal on Computing, 2006, 35(5): 1254–1281. [doi: 10.1137/S0097539704383633]
Acar A, Aksu H, Uluagac AS, Conti M. A survey on homomorphic encryption schemes: Theory and implementation. ACM Computing Surveys, 2019, 51(4): 79. [doi: 10.1145/3214303]
http://www.jos.org.cn/1000-9825/5354.htm]]>
http://www.jos.org.cn/1000-9825/5354.htm]]>
http://www.jos.org.cn/1000-9825/5979.htm]]>
http://www.jos.org.cn/1000-9825/5979.htm]]>
http://www.jos.org.cn/1000-9825/5594.htm]]>
http://www.jos.org.cn/1000-9825/5594.htm]]>
Phong LT, Phuong TT. Privacy-preserving deep learning via weight transmission. IEEE Transactions on Information Forensics and Security, 2019, 14(11): 3003–3015. [doi: 10.1109/TIFS.2019.2911169]
Wei K, Li J, Ding M, Ma C, Yang HH, Farokhi F, Jin S, Quek TQS, Poor HV. Federated learning with differential privacy: Algorithms and performance analysis. IEEE Transactions on Information Forensics and Security, 2020, 15: 3454–3469. [doi: 10.1109/TIFS.2020.2988575]
3: A mixed protocol framework for machine learning. In: Proc. of the 2018 ACM SIGSAC Conf. on Computer and Communications Security. Toronto: Association for Computing Machinery, 2018. 35–52.]]>
Wagh S, Gupta D, Chandran N. SecureNN: 3-party secure computation for neural network training. Proceedings on Privacy Enhancing Technologies, 2019, 2019(3): 26–49. [doi: 10.2478/popets-2019-0035]
k-means clustering over vertically partitioned data. In: Proc. of the 9th ACM SIGKDD Int’l Conf. on Knowledge Discovery and Data Mining. Washington: Association for Computing Machinery, 2003. 206–215.]]>
Chang K, Balachandar N, Lam C, Yi D, Brown J, Beers A, Rosen B, Rubin DL, Kalpathy-Cramer J. Distributed deep learning networks among institutions for medical imaging. Journal of the American Medical Informatics Association, 2018, 25(8): 945–954. [doi: 10.1093/jamia/ocy017]
Cheng KW, Fan T, Jin YL, Liu Y, Chen TJ, Papadopoulos D, Yang Q. SecureBoost: A lossless federated learning framework. IEEE Intelligent Systems, 2021, 36(6): 87–98. [doi: 10.1109/MIS.2021.3082561]
Wu DJ, Feng T, Naehrig M, Lauter K. Privately evaluating decision trees and random forests. Proceedings on Privacy Enhancing Technologies, 2016, 2016(4): 335–355. [doi: 10.1515/popets-2016-0043]
Srivastava N, Hinton G, Krizhevsky A, Sutskever I, Salakhutdinov R. Dropout: A simple way to prevent neural networks from overfitting. The Journal of Machine Learning Research, 2014, 15(1): 1929–1958.
Yao Y, Rosasco L, Caponnetto A. On early stopping in gradient descent learning. Constructive Approximation, 2007, 26(2): 289–315. [doi: 10.1007/s00365-006-0663-2]
Wagner I, Eckhoff D. Technical privacy metrics: A systematic survey. ACM Computing Surveys, 2019, 51(3): 57. [doi: 10.1145/3168389]