基于关键字密度的XML关键字检索
CSTR:
作者:
作者单位:

作者简介:

覃遵跃(1974-),男,湖南张家界人,博士,副教授,主要研究领域为数据库技术;徐洪智(1974-),男,副教授,主要研究领域为嵌入式系统,并行计算;汤庸(1964-),男,博士,教授,博士生导师,CCF杰出会员,主要研究领域为协同工作,数据库;黄云(1976-),男,博士,副教授,CCF专业会员,主要研究领域为数据挖掘,智能信息计算.

通讯作者:

汤庸,E-mail:ytang4@qq.com

中图分类号:

基金项目:

国家高技术研究发展计划(863)(2013AA01A212);国家自然科学基金(61772211,60970044,61272067,61363073);广东省自然科学基金团队研究项目(2014B010116002,2015B010109003,2013B090800024,S2012030006242,2015B010129009)


Study on Keyword Retrieval Based on Keyword Density for XML Data
Author:
Affiliation:

Fund Project:

National High Technology R&D Program of China (863) (2013AA01A212); National Natural Science Foundation of China (61772211, 60970044, 61272067, 61363073); S&T Projects of Guangdong Province (2014B010116002, 2015B010109003, 2013B 090800024, S2012030006242, 2015B010129009)

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    关键字检索具有友好的用户操作体验,该检索方式已在文本信息检索领域得到了广泛而深入的应用.对XML数据采用关键字检索是目前研究的热点.基于查询语义的XML关键字检索方法存在返回大量与用户查询意图无关的查询片段或者丢失符合用户查询意图的片段这两个问题.针对这些问题,在考虑LCA横向和纵向两个维度的基础上,提出了用户查询意图与LCA相关性的两个规则,根据两个规则定义了LCA的边密度和路径密度,建立了综合的LCA节点评分公式,最后设计TopLCA-K算法对LCA进行排名,并利用中心位置索引CI提高了TopLCA-K算法的效率.实验结果显示,利用所提出的方法返回的查询节点更加符合用户需求.

    Abstract:

    Keyword search has a friendly user experience; the method has been widely used in the field of text information retrieval. Keyword search on XML data is a hot research topic presently. The XML keyword search method based on query semantics have two problems:(1) a large number of query fragments which are not related to the user's query intention have been returned; (2) the fragments which are consistent with the user's query intention have been missed. Aiming at these problems, two rules of user query intention and LCA correlation are proposed on the basis of the two (horizontal and vertical) dimensions of LCA. The edge density and path density of LCA are defined according to the two rules, and a comprehensive scoring formula on LCA nodes is established, finally, the TopLCA-K algorithm is designed to rank LCA. To improve the efficiency of the algorithm, center location index is designed. Experimental results show that the nodes returned by this method are more in line with the needs of users.

    参考文献
    相似文献
    引证文献
引用本文

覃遵跃,汤庸,徐洪智,黄云.基于关键字密度的XML关键字检索.软件学报,2019,30(4):1062-1077

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2016-07-22
  • 最后修改日期:2017-06-09
  • 录用日期:
  • 在线发布日期: 2019-04-01
  • 出版日期:
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号