主页期刊介绍编委会编辑部服务介绍道德声明在线审稿编委办公English
2020-2021年专刊出版计划 微信服务介绍 最新一期:2020年第10期
     
在线出版
各期目录
纸质出版
分辑系列
论文检索
论文排行
综述文章
专刊文章
美文分享
各期封面
E-mail Alerts
RSS
旧版入口
中国科学院软件研究所
  
投稿指南 问题解答 下载区 收费标准 在线投稿
田永鸿,黄铁军,高文.基于多粒度树模型的Web站点描述及挖掘算法.软件学报,2004,15(9):1393-1404
基于多粒度树模型的Web站点描述及挖掘算法
A Web Site Representation and Mining Algorithm Using the Multiscale Tree Model
投稿时间:2003-06-02  修订日期:2003-07-08
DOI:
中文关键词:  算法  Web站点挖掘  多粒度站点树  上下文模型  隐Markov树  多粒度分类  基于熵的剪枝
英文关键词:algorithm  Web site mining  multiscale site tree  context model  hidden Markov tree (HMT)  multiscale classification  entropy-based pruning
基金项目:Supported by the "Knowledge Innovation Initiative" of the Chinese Academy of Sciences under Grant No.Kgcxz-103(中国科学院知识创新工程)
作者单位
田永鸿 中国科学院,计算技术研究所,北京,100080 
黄铁军 中国科学院,计算技术研究所,北京,100080
中国科学院,研究生院,北京,100039 
高文 中国科学院,计算技术研究所,北京,100080
中国科学院,研究生院,北京,100039
哈尔滨工业大学,计算机科学与工程系,黑龙江,哈尔滨,150001 
摘要点击次数: 3655
全文下载次数: 3040
中文摘要:
      随着Web所拥有的信息量和信息种类的急剧增长,Web站点挖掘对于自动实现特定主题的Web资源发现和分类具有重要的意义.然而现有的Web站点分类或挖掘算法在利用上下文语义信息、去除噪声信息以进一步提高分类准确率等方面还缺乏深入研究.从站点的采样尺寸、分析粒度和描述结构3个方面分析了设计高效的Web站点挖掘算法所需要解决的问题.在此基础上,提出了一种新的Web站点多粒度树描述模型,并描述了包括基于隐Markov树的两阶段分类算法、粒度间上下文融合算法、两阶段去噪程序以及基于熵的动态剪枝策略在内的多粒度Web站点挖掘算法.站点的多粒度描述方法及挖掘算法为多站点查询优化、Web效用挖掘等的深入研究奠定了基础.实验表明,该算法相对于基线系统平均可以提高16%的分类准确率,并减少了34.5%的处理时间.
英文摘要:
      With the exponential growth of both the amount and the diversity of the web information, web site mining is highly desirable for automatically discovering and classifying topic-specific web resources from the World Wide Web. Nevertheless, existing web site mining methods have not yet handled adequately how to make use of all the correlative contextual semantic clues and how to denoise the content of web sites effectually so as to obtain a better classification accuracy. This paper circumstantiates three issues to be solved for designing an effective and efficient web site mining algorithm, i.e., the sampling size, the analysis granularity, and the representation structure of web sites. On the basis, this paper proposes a novel multiscale tree representation model of web sites, and presents a multiscale web site mining approach that contains an HMT-based two-phase classification algorithm, a context-based interscale fusion algorithm, a two-stage text-based denoising procedure, and an entropy-base pruning strategy. The proposed model and algorithms may be used as a starting-point for further investigating some related issues of web sites, such as query optimization of multiple sites and web usage mining. Experiments also show that the approach achieves in average 16% improvement in classification accuracy and 34.5% reduction in processing time over the baseline system.
HTML  下载PDF全文  查看/发表评论  下载PDF阅读器
 

京公网安备 11040202500064号

主办单位:中国科学院软件研究所 中国计算机学会 京ICP备05046678号-4
编辑部电话:+86-10-62562563 E-mail: jos@iscas.ac.cn
Copyright 中国科学院软件研究所《软件学报》版权所有 All Rights Reserved
本刊全文数据库版权所有,未经许可,不得转载,本刊保留追究法律责任的权利