主页期刊介绍编委会编辑部服务介绍道德声明在线审稿编委办公编辑办公English
2020-2021年专刊出版计划 微信服务介绍 最新一期:2020年第9期
     
在线出版
各期目录
纸质出版
分辑系列
论文检索
论文排行
综述文章
专刊文章
美文分享
各期封面
E-mail Alerts
RSS
旧版入口
中国科学院软件研究所
  
投稿指南 问题解答 下载区 收费标准 在线投稿
张兆功,李建中.基于广义超曲面树的相似性搜索算法.软件学报,2002,13(10):1969-1976
基于广义超曲面树的相似性搜索算法
An Algorithm Based on RGH-Tree for Similarity Search Queries
投稿时间:2001-10-15  修订日期:2002-04-22
DOI:
中文关键词:  算法  相似性搜索  度量空间  数据库
英文关键词:algorithm  similarity search query  metric space  database
基金项目:国家自然科学基金资助项目(69873014);国家高技术研究发展计划资助项目(20 01AA415410);国家重点基础研究发展规划973资助项目(G1999032704);国家教育部博士点基金资助项目(2000021303);黑龙江省自然科学基金资助项目(F00-11)
作者单位
张兆功 黑龙江大学,黑龙江,哈尔滨,150080
哈尔滨工业大学,计算机科学与技术学院,黑龙江,哈尔滨,150001 
李建中 黑龙江大学,黑龙江,哈尔滨,150080
哈尔滨工业大学,计算机科学与技术学院,黑龙江,哈尔滨,150001 
摘要点击次数: 2812
全文下载次数: 2837
中文摘要:
      相似性搜索是数据挖掘的主要领域之一.它在数据库中检索出相似的数据,发现数据间的相似性.它可以应用于图像数据库、空间数据库和时间序列分析.对于欧氏空间(一种特殊的度量空间),相似性搜索算法中基于R-tree的方法,在低维时是高效的,当维数增加时,R-tre e的方法将退化为线性扫描.该现象被称为维数灾难(dimensionality curse),主要原因是存在数据重复.当数据量很大且维数很高时,距离计算和I/O操作将非常费时.提出了度量空间上新的空间分割方法和索引结构rgh-tree,利用数据库的数据对象与很少几个固定参考对象的距离信息进行数据分割和分布,产生一个各节点没有数据重复的平衡树.另外,在rgh-tree的基础上提出了相应的相似性搜索算法,该算法具有较小的I/O代价和距离计算次数,平均复杂性近似为o(n0.58).解决了目前算法存在的一些问题.
英文摘要:
      Similarity search is a very important problem in data mining. It retrieves similar objects in database and finds proximity between objects. It can be applied to image/picture databases, spatial databases, and time-series databases. For Euclid space (a special metric space), similarity search algorithms based on R-tree are efficient in low-dimensional space, but degenerate into linear scan for high-dimensional space. This phenomenon is called dimensionality curse. This paper presents a new partition and index method of metric space, rgh-tree which distributes and partitions objects by using distance information if objects with rew fixed reference. It produces a balance tree with no data overlay. In addition, an algorithm based on rgh-tree, which is suitable for similarity search in metric space, is presented in this paper. The algorithm overcomes the shortcomings of the exiting algorithms, which has less I/O cost and times of computing distance, with average complexity o(n0.58).
HTML  下载PDF全文  查看/发表评论  下载PDF阅读器
 

京公网安备 11040202500064号

主办单位:中国科学院软件研究所 中国计算机学会 京ICP备05046678号-4
编辑部电话:+86-10-62562563 E-mail: jos@iscas.ac.cn
Copyright 中国科学院软件研究所《软件学报》版权所有 All Rights Reserved
本刊全文数据库版权所有,未经许可,不得转载,本刊保留追究法律责任的权利