面向电子商务社交知识图谱高效增量预训练的双向模仿蒸馏
CSTR:
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

TP181

基金项目:

国家自然科学基金(62306276, U23B2055, U19B2027, 91846204); 浙江省自然科学基金(LQ23F020017); 宁波市自然科学基金(2023J291)


Bidirectional Imitation Distillation for Efficient Incremental Pre-training of E-commerce Social Knowledge Graph
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    知识图谱(Knowledge Graph, KG)预训练模型有助于电子商务应用中各种下游任务, 然而, 对于具有高动态性的大规模电商社交知识图谱来说, 预训练模型需要及时更新以感知由用户交互引起的节点特征变化. 提出一种针对电商社交知识图谱预训练模型的高效增量学习方法, 该方法通过基于双向模仿蒸馏的训练策略充分挖掘不同样本对模型更新的作用, 并通过基于样本常规性和反常性的采样策略来减少训练数据规模, 提升模型更新效率. 此外, 还提出一种逆重放机制, 为社交知识图谱预训练模型的增量训练生成高质量的负样本. 在真实的电子商务数据集和相关下游任务上的实验结果表明, 相较于最先进的方法, 所提方法可以更有效且高效地增量更新社交知识图谱预训练模型.

    Abstract:

    Pre-training knowledge graph (KG) models facilitate various downstream tasks in e-commerce applications. However, large-scale social KGs are highly dynamic, and the pre-training models need to be updated regularly to reflect the changes in node features caused by user interactions. This paper proposes an efficient incremental update framework for the pre-training KG models. The framework mainly includes a bidirectional imitation distillation method to fully use the different types of facts in new data, and a sampling strategy based on samples’ normality and abnormality is proposed to sample the most valuable facts from all new facts to reduce the training data size, and a reverse replay mechanism is proposed to generate high-quality negative facts that are more suitable for the incremental training of social KGs in e-commerce. Experimental results on real-world e-commerce datasets and related downstream tasks demonstrate that the proposed framework can incrementally update the pre-training KG models more effectively and efficiently compared to state-of-the-art methods.

    参考文献
    相似文献
    引证文献
引用本文

朱渝珊,张文,王晓珂,李志宇,陈名杨,姚祯,陈辉,陈华钧.面向电子商务社交知识图谱高效增量预训练的双向模仿蒸馏.软件学报,,():1-22

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2023-06-25
  • 最后修改日期:2023-10-10
  • 录用日期:
  • 在线发布日期: 2024-06-14
  • 出版日期:
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号