主页期刊介绍编委会编辑部服务介绍道德声明在线审稿编委办公编辑办公English
2018-2019年专刊出版计划 微信服务介绍 最新一期:2019年第10期
     
在线出版
各期目录
纸质出版
分辑系列
论文检索
论文排行
综述文章
专刊文章
美文分享
各期封面
E-mail Alerts
RSS
旧版入口
中国科学院软件研究所
  
投稿指南 问题解答 下载区 收费标准 在线投稿
刁力力,胡可云,陆玉昌,石纯一.用Boosting方法组合增强Stumps进行文本分类.软件学报,2002,13(8):1361-1367
用Boosting方法组合增强Stumps进行文本分类
Improved Stumps Combined by Boosting for Text Categorization
投稿时间:2001-10-15  修订日期:2002-02-06
DOI:
中文关键词:  文本分类  机器学习  stump  boosting
英文关键词:text categorization  machine learning  stump  boosting
基金项目:Supported by the National Natural Science Foundation of China under Grant No.79990580 (国家自然科学基金); the National Grand Fundamental Research 973 Program of China under Grant No.G1998030414 (国家重点基础研究发展规划973项目)
作者单位
刁力力 清华大学,计算机科学与技术系,北京,100084
清华大学,智能技术与系统国家重点实验室,北京,100084 
胡可云 清华大学,计算机科学与技术系,北京,100084
清华大学,智能技术与系统国家重点实验室,北京,100084 
陆玉昌 清华大学,计算机科学与技术系,北京,100084
清华大学,智能技术与系统国家重点实验室,北京,100084 
石纯一 清华大学,计算机科学与技术系,北京,100084
清华大学,智能技术与系统国家重点实验室,北京,100084 
摘要点击次数: 2652
全文下载次数: 2836
中文摘要:
      为提高文本分类的精度,Schapire和Singer尝试了一个用Boosting来组合仅有一个划分的简单决策树(Stumps)的方法.其基学习器的划分是由某个特定词项是否在待分类文档中出现决定的.这样的基学习器明显太弱,造成最后组合成的Boosting分类器精度不够理想,而且需要的迭代次数很大,因而效率很低.针对这个问题,提出由文档中所有词项来决定基学习器划分以增强基学习器分类能力的方法.它把以VSM表示的文档与类代表向量之间的相似度和某特定阈值的大小关系作为基学习器划分的标准.同时,为提高算法的收敛速度,在类代表向量的计算过程中动态引入Boosting分配给各学习样本的权重.实验结果表明,这种方法提高了用Boosting组合Stump分类器进行文本分类的性能(精度和效率),而且问题规模越大,效果越明显.
英文摘要:
      Stumps, classification trees with only one split at the root node, have been shown by Schapire and Singer to be an effective method for text categorization when embedded in a boosting algorithm as its base classifiers. In their experiments, the splitting point (the partition) of each stump is decided by whether a certain term appears or not in a text document, which is too weak to obtain satisfied accuracy even after they are combined by boosting, and therefore the iteration times needed by boosting is sharply increased as an indicator of low efficiency. To improve these base classifiers, an idea is proposed in this paper to decide the splitting point of each stump by all the terms of a text document. Specifically, it employs the numerical relationship between the similarities of the VSM-vector of text document and the representational VSM-vector of each class as the partition criteria of the base classifiers. Meanwhile, to further facilitate its convergence, the boosting weights assigned to sample documents are introduced to the computation of representational VSM-vectors for possible classes dynamically. Experimental results show that the algorithm is both more efficient for training and more effective than its predecessor for fulfilling text categorization tasks. This trend seems more conspicuous along with the incensement of problem scale.
HTML  下载PDF全文  查看/发表评论  下载PDF阅读器
 

京公网安备 11040202500064号

主办单位:中国科学院软件研究所 中国计算机学会 京ICP备05046678号-4
编辑部电话:+86-10-62562563 E-mail: jos@iscas.ac.cn
Copyright 中国科学院软件研究所《软件学报》版权所有 All Rights Reserved
本刊全文数据库版权所有,未经许可,不得转载,本刊保留追究法律责任的权利