主页期刊介绍编委会编辑部服务介绍道德声明在线审稿编委办公编辑办公English
2018-2019年专刊出版计划 微信服务介绍 最新一期:2019年第9期
     
在线出版
各期目录
纸质出版
分辑系列
论文检索
论文排行
综述文章
专刊文章
美文分享
各期封面
E-mail Alerts
RSS
旧版入口
中国科学院软件研究所
  
投稿指南 问题解答 下载区 收费标准 在线投稿
宋擒豹,沈钧毅.基于关联规则的Web文档聚类算法.软件学报,2002,13(3):417-423
基于关联规则的Web文档聚类算法
A Web Document Clustering Algorithm Based on Association Rule
投稿时间:2000-04-04  修订日期:2000-08-28
DOI:
中文关键词:  文档聚类  关联规则  Web挖掘  WWW
英文关键词:document clustering  association rule  Web mining  WWW
基金项目:国家自然科学基金资助项目(60173058);国家863青年基金资助项目(863-306-QN2000-5)
作者单位
宋擒豹 西安交通大学,计算机科学与技术系,陕西,西安,710049 
沈钧毅 西安交通大学,计算机科学与技术系,陕西,西安,710049 
摘要点击次数: 2829
全文下载次数: 3057
中文摘要:
      Web文档聚类可以有效地压缩搜索空间,加快检索速度,提高查询精度.提出了一种Web文档的聚类算法.该算法首先采用向量空间模型VSM(vector space model)表示主题,根据主题表示文档;再以文档为事务,以主题为事务项,将文档和主题间的关系看作事务的形式,采用关联规则挖掘算法发现主题频集,相应的文档集即为初步文档类;然后依据类间距离和类内连接强度阈值合并、拆分类,最终实现文档聚类.实验结果表明,该算法是有效的,能处理文档类间固有的重叠情况,具有一定的实用价值.
英文摘要:
      By grouping similar Web documents into clusters, the search space can be reduced, the search accelerated, and its precision improved. In this paper, a new clustering algorithm is introduced. In the clustering technique, topics are represented according to VSM (vector space model), documents are represented according to topics, and the relation between documents and topics is viewed in a transactional form, each document corresponds to a transaction and each topic corresponds to an item. A frequent item sets can be found by using the association riles discovery algorithm,corresponding documents can be seen as initial clusters.These clusters are merged according to the disance between clusters,or divided aivided according to the strength of connection among documents of a cluster.By real Wed documents,experimental results show the algorithm's effectivenss and suitability for tackling the overlapping clusters inhered by documents.
HTML  下载PDF全文  查看/发表评论  下载PDF阅读器
 

京公网安备 11040202500064号

主办单位:中国科学院软件研究所 中国计算机学会 京ICP备05046678号-4
编辑部电话:+86-10-62562563 E-mail: jos@iscas.ac.cn
Copyright 中国科学院软件研究所《软件学报》版权所有 All Rights Reserved
本刊全文数据库版权所有,未经许可,不得转载,本刊保留追究法律责任的权利