基于Web-Log Mining的Web文档聚类
DOI:
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:

国家重点基础研究发展规划973资助项目(G1998030509)


Document Clustering Based on Web-Log Mining
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    速度和效果是聚类算法面临的两大问题.DBSCAN(density based spatial clustering of applications with noise)是典型的基于密度的一种聚类方法,对于大型数据库的聚类实验显示了它在速度上的优越性.提出了一种基于密度的递归聚类算法(recursive density based clustering algorithm,简称RDBC),此算法可以智能地、动态地修改其密度参数.RDBC是基于DBSCAN的一种改进算法,其运算复杂度和DBSCAN相同.通过在Web文档上的聚类实验,结果表明,RDBC不但保留了DBSCAN高速度的优点,而且聚类效果大大优于DBSCAN.

    Abstract:

    The effectiveness and efficiency are two problems in clustering algorithms. DBSCAN is a typical density based clustering algorithm that is very efficient on large databases. In this paper, a recursive density based clustering algorithm that can adaptively change its parameters intelligently is presented. This clustering algorithm RDBC (recursive density based clustering algorithm) is based on DBSCAN. It can be shown that RDBC require the same time complexity as that of the DBSCAN algorithm. In addition, it is proved both analytically and experimentally that this method yields results more superior than that of DBSCAN.

    参考文献
    相似文献
    引证文献
引用本文

苏中,马少平,杨强,张宏江.基于Web-Log Mining的Web文档聚类.软件学报,2002,13(1):99-104

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2000-04-03
  • 最后修改日期:2000-07-20
  • 录用日期:
  • 在线发布日期:
  • 出版日期:
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号