跨模态数据实体分辨研究综述
作者:
作者单位:

作者简介:

曹建军(1975-),男,博士,副研究员,CCF高级会员,主要研究领域为数据质量控制与数据治理,智能数据分析与应用;聂子博(1998-),男,硕士,CCF学生会员,主要研究领域为数据质量控制与数据治理;郑奇斌(1990-),男,博士,主要研究领域为数据质量控制与数据治理;吕国俊(1995-),男,硕士,主要研究领域为数据质量控制与数据治理;曾志贤(1996-),男,硕士,CCF学生会员,主要研究领域为数据质量控制与数据治理

通讯作者:

聂子博,E-mail:niezibo233@nudt.edu.cn

中图分类号:

基金项目:

国家自然科学基金(61371196); 中国博士后科学基金(2015M582832); 国家科技重大专项(2015ZX01040201-003)


Survey on Cross-modal Data Entity Resolution
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    实体分辨广泛地存在于数据质量控制、信息检索、数据集成等数据任务中. 传统的实体分辨主要面向关系型数据, 而随着大数据技术的发展, 文本、图像等模态不同的数据大量涌现催生了跨模态数据应用需求, 将跨模态数据实体分辨提升为大数据处理和分析的基础问题之一. 对跨模态实体分辨问题的研究进展进行回顾, 首先介绍问题的定义、评价指标; 然后, 以模态内关系的保持和模态间关系的建立为主线, 对现有研究进行总结和梳理; 并且, 通过在多个公开数据集上对常用方法进行测试, 对出现差异的原因和进行分析; 最后, 总结当前研究仍然存在的问题, 并依据这些问题给出未来可能的研究方向.

    Abstract:

    Entity resolution widely exists in data tasks such as data quality control, information retrieval, and data integration. Traditional entity resolution methods mainly focus on relational data, while with the development of big data technology, the application requirements of cross-modal data are generated due to the proliferation of different modal data including texts and images. Hence, cross-modal data entity resolution has become a fundamental problem in big data processing and analysis. In this study, the research development of cross-modal entity resolution is reviewed, and its definition and evaluation indexes are introduced. Then, with the construction of inter-modal relationships and the maintenance of intra-modal relationships as the main line, existing research results are surveyed. In addition, widely used methods are tested on different open datasets, and their differences and reasons behind them are analyzed. Finally, the problems in the present research are concluded, on the basis of which the future research trends are given.

    参考文献
    相似文献
    引证文献
引用本文

曹建军,聂子博,郑奇斌,吕国俊,曾志贤.跨模态数据实体分辨研究综述.软件学报,2023,34(12):5822-5847

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2022-05-16
  • 最后修改日期:2022-06-23
  • 录用日期:
  • 在线发布日期: 2023-03-02
  • 出版日期:
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号