2023, 34(3):1109-1125.DOI: 10.13328/j.cnki.jos.006795
摘要:近年来,多个国家地区出台了一系列数据安全相关的法律,例如欧盟的《通用数据保护条例》等.这些相关法律法规的出台,加剧了各企业机构等多方之间数据共享难的数据孤岛问题.数据联邦(data federation)正是解决该问题的可能出路.数据联邦是指多个数据拥有方在不泄露各自原始数据的前提下,结合安全多方计算等隐私计算技术,联合完成查询任务的计算.这一概念已成为近年来的研究热点,并涌现出一系列相关的代表性系统工作,如SMCQL、Conclave.然而,针对关系数据库系统中核心的连接查询,现有数据联邦系统还存在如下问题:首先,连接种类单一,难以满足复杂连接条件下的查询需求;其次,算法性能低下,由于现有系统往往直接调用安全工具库,其运行时间与通信开销高昂.因此,针对以上问题进行研究,提出了数据联邦下连接算法.主要贡献如下:首先,设计实现了面向多方的联邦安全算子,能够支持多种运算;其次,提出了支持q-连接的联邦连接算法与优化策略,显著减少了连接查询所需安全计算代价;最后,基于基准数据集TPC-H,验证了该算法的性能.实验结果表明,与现有数据联邦系统SMCQL、Conclave相比,该算法能够将运行时间和通信开销分别降低61.33%和95.26%.
2023, 34(3):1148-1167.DOI: 10.13328/j.cnki.jos.006784
摘要:在大数据背景下,保证数据可信共享是数据联邦的基本要求.区块链技术代替传统的主从架构,可以提高联邦学习(federated learning,FL)的安全性.然而,现有工作中,模型参数验证与数据持久化所产生的巨大通信成本和存储消耗,已经成为数据联邦中亟待解决的问题.针对上述问题,设计了一种高效的去中心化联邦学习框架(efficient decentralized federated learning framework,EDFL),能够降低存储开销,并显著提升FL的学习效率.首先,提出了一种基于贡献度证明(proof-of-contribution)的共识机制,使得区块生成者的选举基于历史贡献度而不采用竞争机制,从而有效发避免了挖矿过程产生的区块生成延迟,并以异步方式缓解模型参数验证中的阻塞问题;其次,提出了一种角色自适应激励算法,因为该算法基于节点的工作强度和EDFL所分配的角色,所以能够激励合法节点更积极地进行模型训练,并有效地识别出恶意节点;再者,提出一种区块链分区存储策略,使得多重局部修复编码块(local reconstruction code)可被均匀地分布到网络的各个节点上,进而降低节点的本地存储代价,并实现了较高的数据恢复效率;最后,在真实的FEMNIST数据集上,对EDFL的学习效率、存储可扩展性和安全性进行了评估.实验结果表明,EDFL在以上3个方面均优于主流的基于区块链的FL框架.
2022, 33(3):1111-1127.DOI: 10.13328/j.cnki.jos.006458
摘要:大数据时代,数据作为生产要素具有重要价值.因此,通过数据共享实现大规模数据的分析挖掘与利用具有重要意义.然而,近年来日益严格的隐私安全保护要求使得数据分散异质的多方之间不能任意共享数据,加剧了“数据孤岛”问题.数据联邦能让多数据拥有方在保护隐私的前提下完成联合查询.因此,基于“数据不动计算动”的联邦计算思想实现了一种多方安全的关系型数据联邦系统.该系统适配多种关系型数据库,能够为用户屏蔽底层多数据拥有方的数据异构性.系统基于秘密共享实现了支持多方安全的基础操作多方安全算子库,优化了算子的结果重建过程,提高了其执行效率.在此基础上,系统支持求和、求均值、求最值、等值连接和任意连接等查询操作,并充分利用多方特点减少各数据拥有方之间的数据交互,降低安全开销,从而有效支持高效数据共享.最后,在标准测试数据集TPC-H上进行实验,实验结果说明:与目前的数据联邦系统SMCQL和Conclave相比,该系统能够支持更多的数据拥有方参与,并且在多种查询操作上有更高的执行效率,最快可超越现有系统3.75倍.