主页期刊介绍编委会编辑部服务介绍道德声明在线审稿编委办公编辑办公English
2018-2019年专刊出版计划 微信服务介绍 最新一期:2019年第10期
     
在线出版
各期目录
纸质出版
分辑系列
论文检索
论文排行
综述文章
专刊文章
美文分享
各期封面
E-mail Alerts
RSS
旧版入口
中国科学院软件研究所
  
投稿指南 问题解答 下载区 收费标准 在线投稿
宫秀军,史忠植.基于Bayes潜在语义模型的半监督Web挖掘.软件学报,2002,13(8):1508-1514
基于Bayes潜在语义模型的半监督Web挖掘
Semi-Supervised Web Mining Based on Bayes Latent Semantic Model
投稿时间:2001-06-04  修订日期:2001-09-06
DOI:
中文关键词:  贝叶斯潜在语义分析  半监督学习  简单贝叶斯分类  期望最大化算法  Web挖掘
英文关键词:Bayes latent semantic analysis  semi-supervised learning  Naive Bayesian classifier  expectation maximization  Web mining
基金项目:国家自然科学基金资助项目(60073019,69803010)
作者单位
宫秀军 中国科学院,计算技术研究所,智能信息处理开放实验室,北京,100080 
史忠植 中国科学院,计算技术研究所,智能信息处理开放实验室,北京,100080 
摘要点击次数: 2620
全文下载次数: 3980
中文摘要:
      随着互联网信息的增长,Web挖掘已经成为数据挖掘研究的热点之一.网页分类是通过学习大量的带有类别标注的训练样本来预测网页的类别,人工标注这些训练样本是相当繁琐的.网页聚类通过一定的相似性度量,将相关网页归并到一类.然而传统的聚类算法对解空间的搜索带有盲目性和缺乏语义特征.提出了两阶段的半监督文本学习策略.第1阶段,利用贝叶斯潜在语义模型来标注含有潜在类别主题词变量的网页的类别;第2阶段,利用简单贝叶斯模型,在第1阶段类别标注的基础上,通过EM(expectation maximization)算法对不含有潜在类别主题词变量的文档作类别标注.实验结果表明,该算法具有很高的精度和召回率.
英文摘要:
      With the increasing of information on Internet, Web mining has been the focus of data mining. Web classification predicts the labels of Web documents by learning lots of training examples with labels. It is very expensive to get these examples by manual. Web clustering groups the similar Web documents by a certain of metric of similarity. But the classical algorithms of clustering are aimless in searching the solution space and absent of semantic characters. In this paper, a semi-supervised learning strategy consists of tow stages is put forward.The fist atage,labels the documents the documents that include latent class variables by using Bayes latent semantic model.The second stage,based on the results from the first stage,labels the documents excluding latent class variables with the Naive Bayes models.Experimental results show that this algorithm has good precision and recall rate.
HTML  下载PDF全文  查看/发表评论  下载PDF阅读器
 

京公网安备 11040202500064号

主办单位:中国科学院软件研究所 中国计算机学会 京ICP备05046678号-4
编辑部电话:+86-10-62562563 E-mail: jos@iscas.ac.cn
Copyright 中国科学院软件研究所《软件学报》版权所有 All Rights Reserved
本刊全文数据库版权所有,未经许可,不得转载,本刊保留追究法律责任的权利