PandaDB:一种异构数据智能融合管理系统
CSTR:
作者:
作者单位:

作者简介:

沈志宏(1977-),男,博士,教授级高工,博士生导师,主要研究领域为大数据,图数据管理,语义网.
赵子豪(1994-),男,博士生,CCF学生会员,主要研究领域为分布式图数据库,融合数据查询.
王华进(1987-),男,博士,助理研究员,CCF专业会员,主要研究领域为分布式计算,大数据分析技术.
刘忠新(1989-),男,工程师,主要研究领域为分布式存储,数据库.
胡川(1998-),男,硕士生,主要研究领域为知识图谱可视化.
周园春(1975-),男,博士,研究员,博士生导师,CCF高级会员,主要研究领域为科学大数据,知识图谱.

通讯作者:

沈志宏,E-mail:bluejoe@cnic.cn

中图分类号:

基金项目:

中国科学院战略性先导科技专项(B类)课题(XDB38030300);国家自然科学基金(61836013);科技部创新方法工作专项(2019IM020100);中国科学院信息化专项课题(XXH13503)


PandaDB: Intelligent Management System for Heterogeneous Data
Author:
Affiliation:

Fund Project:

Strategic Priority Research Program of CAS (XDB38030300); Key Project of National Natural Science Foundation of China (61836013); Ministry of Science and Technology Innovation Methods Special work Project (2019IM020100); Informatization Plan of Chinese Academy of Sciences (XXH13503)

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    随着大数据应用的不断深入,对大规模结构化/非结构化数据进行融合管理和分析的需求日益凸显.然而,结构化/非结构化数据在存储管理方式、信息获取方式、检索方式方面的差异给融合管理和分析带来了技术挑战.提出了适用于异构数据融合管理和语义计算的属性图扩展模型,并定义了相关属性操作符和查询语法.接着,基于智能属性图模型提出异构数据智能融合管理系统PandaDB,并详细介绍了PandaDB的总体架构、存储机制、查询机制、属性协存和AI算法集成机制.性能测试和应用案例证明,PandaDB的协存机制、分布式架构和语义索引机制对大规模异构数据的即席查询和分析具有较好的性能表现,该系统可实际应用于学术图谱实体消歧与可视化等融合数据管理场景.

    Abstract:

    With the development of big data application, the demand of large-scale structured/unstructured data fusion management and analysis is becoming increasingly prominent. However, the differences in management, process, retrieval of structured/unstructured data brings challenges for fusion management and analysis. This study proposes an extended property graph model for heterogeneous data fusion management and semantic computing, defines related property operators and query syntax. Based on the intelligent property graph model, this study implements PandaDB, an intelligent heterogeneous data fusion management system. This study depicts the architecture, storage mechanism, query mechanism, property co-storage, AI algorithm scheduling, and distributed architecture of PandaDB. Test experiments and cases show that the co-storage mechanism and distributed architecture of PandaDB have good performance acceleration effects, and can be applied in some scenarios of fusion data intelligent management such as academic knowledge graph entity disambiguation.

    参考文献
    相似文献
    引证文献
引用本文

沈志宏,赵子豪,王华进,刘忠新,胡川,周园春. PandaDB:一种异构数据智能融合管理系统.软件学报,2021,32(3):763-780

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2020-07-20
  • 最后修改日期:2020-09-03
  • 录用日期:
  • 在线发布日期: 2021-01-21
  • 出版日期: 2021-03-06
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号