主页期刊介绍编委会编辑部服务介绍道德声明在线审稿编委办公English
2022年专刊出版计划 微信服务介绍 最新一期:2021年第4期
     
在线出版
各期目录
纸质出版
分辑系列
论文检索
论文排行
综述文章
专刊文章
美文分享
各期封面
E-mail Alerts
RSS
旧版入口
中国科学院软件研究所
  
投稿指南 问题解答 下载区 收费标准 在线投稿
史鼎元,王晏晟,郑鹏飞,童咏昕.面向企业数据孤岛的联邦排序学习.软件学报,2021,32(3):669-688
面向企业数据孤岛的联邦排序学习
Cross-Silo Federated Learning-to-Rank
投稿时间:2020-07-19  修订日期:2020-09-03
DOI:10.13328/j.cnki.jos.006174
中文关键词:  排序学习  企业数据孤岛  联邦学习  略图  差分隐私
英文关键词:learning-to-rank  data silo  federated learning  sketch  differential privacy
基金项目:国家重点研发计划(2018AAA0101100);国家自然科学基金(61822201,U1811463);软件开发环境国家重点实验室(北京航空航天大学)开放课题(SKLSDE-2020ZX-15)
作者单位E-mail
史鼎元 软件开发环境国家重点实验室(北京航空航天大学), 北京 100191
大数据科学与脑机智能高精尖创新中心(北京航空航天大学), 北京 100191
北京航空航天大学 计算机学院, 北京 100191 
 
王晏晟 软件开发环境国家重点实验室(北京航空航天大学), 北京 100191
大数据科学与脑机智能高精尖创新中心(北京航空航天大学), 北京 100191
北京航空航天大学 计算机学院, 北京 100191 
 
郑鹏飞 软件开发环境国家重点实验室(北京航空航天大学), 北京 100191
大数据科学与脑机智能高精尖创新中心(北京航空航天大学), 北京 100191
北京航空航天大学 计算机学院, 北京 100191 
 
童咏昕 软件开发环境国家重点实验室(北京航空航天大学), 北京 100191
大数据科学与脑机智能高精尖创新中心(北京航空航天大学), 北京 100191
北京航空航天大学 计算机学院, 北京 100191 
yxtong@buaa.edu.cn 
摘要点击次数: 605
全文下载次数: 402
中文摘要:
      排序学习(learning-to-rank,简称LTR)模型在信息检索领域取得了显著成果,而该模型的传统训练方法需要收集大规模文本数据.然而,随着数据隐私保护日渐受到人们重视,从多个数据拥有者(如企业)手中收集数据训练排序学习模型的方式变得不可行.各企业之间数据被迫独立存储,形成了数据孤岛.由于排序模型训练需要使用查询记录、文档等诸多隐私信息,数据孤岛难以融合打通,这制约了排序学习模型的训练.联邦学习能够让多数据拥有方在隐私保护的前提下联合训练模型,是一种打通数据孤岛的新方法.在其启发下,提出了一种新的框架,即面向企业数据孤岛的联邦排序学习,它同时解决了联邦学习场景下排序学习所面临的两大挑战,即交叉特征生成与缺失标签处理.为了应对多方交叉特征的生成问题,使用了一种基于略图(sketch)数据结构与差分隐私的方法,其相比于传统加密方法具有更高的效率,同时还具有隐私性与结果精度的理论保证.为了应对缺失标签问题,提出了一种新的联邦半监督学习方法.最终,通过在公开数据集上的大量实验,验证了所提方法的有效性.
英文摘要:
      Learning-to-rank (LTR) model has made a remarkable achievement. However, traditional training scheme for LTR model requires large amount of text data. Considering the increasing concerns about privacy protection, it is becoming infeasible to collect text data from multiple data owners as before, and thus data is forced to save separately. The separation turns data owners into data silos, among which the data can hardly exchange, causing LTR training severely compromised. Inspired by the recent progress in federated learning, a novel framework is proposed named cross-silo federated learning-to-rank (CS-F-LTR), which addresses two unique challenges faced by LTR when applied it to federated scenario. In order to deal with the cross-party feature generation problem, CS-F-LTR utilizes a sketch and differential privacy based method, which is much more efficient than encryption-based protocols meanwhile the accuracy loss is still guaranteed. To tackle with the missing label problem, CS-F-LTR relies on a semi-supervised learning mechanism that facilitates fast labeling with mutual labelers. Extensive experiments conducted on public datasets verify the effectiveness of the proposed framework.
HTML  下载PDF全文  查看/发表评论  下载PDF阅读器
 

京公网安备 11040202500064号

主办单位:中国科学院软件研究所 中国计算机学会 京ICP备05046678号-4
编辑部电话:+86-10-62562563 E-mail: jos@iscas.ac.cn
Copyright 中国科学院软件研究所《软件学报》版权所有 All Rights Reserved
本刊全文数据库版权所有,未经许可,不得转载,本刊保留追究法律责任的权利