面向查询式实体解析的多属性数据索引技术
CSTR:
作者:
作者单位:

作者简介:

孙琛琛(1987-),男,博士,讲师,CCF专业会员,主要研究领域为实体解析,异常检测,大数据分析与挖掘;肖迎元(1969-),男,博士,教授,博士生导师,CCF高级会员,主要研究领域为数据库,个性化推荐系统,大数据挖掘与分析;申德荣(1964-),女,博士,教授,博士生导师,CCF高级会员,主要研究领域为分布式数据管理,数据集成;李玉坤(1969-),男,博士,教授,主要研究领域为数据库,信息检索,个人信息管理

通讯作者:

孙琛琛,E-mail:suncc@email.tjut.edu.cn

中图分类号:

TP311

基金项目:

国家自然科学基金(62002262,61672142,61602103,62072086,62072084);国家重点研发计划(2018YFB1003404)


Multi-attribute Data Indexing for Query Based Entity Resolution
Author:
Affiliation:

Fund Project:

National Natural Science Foundation of China (62002262, 61672142, 61602103, 62072086, 62072084); National Key Research and Development Program of China (2018YFB1003404)

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    实体解析是数据集成的关键方面,也是大数据分析与挖掘的必要预处理步骤.大数据时代,随着查询驱动的数据应用需求的不断增长,查询式实体解析成为热点问题.为了提升查询-解析效率,研究了面向实体缓存的多属性数据索引技术.涉及两个核心问题:(1)如何设计多属性数据索引?设计了基于R-树的多属性索引结构.为了满足实体缓存在线生成需求,提出了基于空间聚类的在线索引构建方法.提出了基于“过滤-验证”的多维查询方法,利用多属性索引有效地过滤掉不可能命中的记录,然后采用相似性函数或距离函数逐一验证候选记录.(2)如何将不同的字符串属性插入到树形索引中?解决思路是,将字符串映射到数值空间.针对Jaccard相似性和编辑相似性,提出了基于q-gram的映射方法,并提出了基于向量降维的优化和基于z-order的优化,实现高质量的“字符串®数值”映射.最后,在两个数据集上进行实验评估,验证多属性索引的有效性,并测试其各个方面.

    Abstract:

    Entity resolution is a key aspect of data integration, and also is a necessary preprocessing step of big data analytics and mining. In big data era, more and more query-driven data analytics applications come out, and query-based entity resolution becomes a hot topic. This work studies multi-attribute data indexing technology for entity cache in order to promote query-resolution efficiency. There are two core problems. One is how to design the multi-attributeindex. An R-tree based multi-attributeindex is designed. Entity cache is produced online, so an online index construction method is proposed based on spatial clustering. A filter-verify based multi-dimensional query method is proposed. It filters impossible records by the multi-attributeindex, and then verifies each candidate record with similarity functions or distance functions. The other ishow to insert different string attributes into the tree index. The basic solution is mapping strings into integer spaces. For Jaccard similarity and edit similarity, a q-gram based mapping method is proposed, and is improved by vector dimension reduction and z-order, which achieves high mapping qualities. Finally, the proposed hybrid index is experimentally evaluated on two datasets. Its effectiveness is validated, and moreover, different aspects of the multi-attribute index are also tested.

    参考文献
    相似文献
    引证文献
引用本文

孙琛琛,申德荣,肖迎元,李玉坤.面向查询式实体解析的多属性数据索引技术.软件学报,2022,33(6):2331-2347

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2020-08-02
  • 最后修改日期:2020-11-20
  • 录用日期:
  • 在线发布日期: 2021-04-21
  • 出版日期: 2022-06-06
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号