主页期刊介绍编委会编辑部服务介绍道德声明在线审稿编委办公编辑办公English
2018-2019年专刊出版计划 微信服务介绍 最新一期:2018年第12期
     
在线出版
各期目录
纸质出版
分辑系列
论文检索
论文排行
综述文章
专刊文章
美文分享
各期封面
E-mail Alerts
RSS
旧版入口
中国科学院软件研究所
  
投稿指南 问题解答 下载区 收费标准 在线投稿
刘露,彭涛,左万利,戴耀康.一种基于聚类的PU主动文本分类方法.软件学报,2013,24(11):2571-2583
一种基于聚类的PU主动文本分类方法
Clustering-Based PU Active Text Classification Method
投稿时间:2013-02-28  修订日期:2013-07-16
DOI:10.3724/SP.J.1001.2013.04467
中文关键词:  PU(positive and unlabeled)文本分类  聚类  TFIPNDF(term frequency inverse positive-negative document frequency)  主动学习  可信反例  改进的Rocchio
英文关键词:positive and unlabeled (PU) text classification  clustering  TFIPNDF (term frequency inverse positive-negative document frequency)  active learning  reliable negative example  improved Rocchio
基金项目:国家自然科学基金(60903098,60973040)
作者单位E-mail
刘露 吉林大学 计算机科学与技术学院, 吉林 长春 130012
Department of Computer Science, University of Illinois at Urbana-Champaign, Urbana, USA 
 
彭涛 吉林大学 计算机科学与技术学院, 吉林 长春 130012
Department of Computer Science, University of Illinois at Urbana-Champaign, Urbana, USA
符号计算与知识工程教育部重点实验室吉林大学, 吉林 长春 130012 
tpeng@jlu.edu.cn,taopeng@illinois.edu 
左万利 吉林大学 计算机科学与技术学院, 吉林 长春 130012
符号计算与知识工程教育部重点实验室吉林大学, 吉林 长春 130012 
 
戴耀康 吉林大学 计算机科学与技术学院, 吉林 长春 130012  
摘要点击次数: 3796
全文下载次数: 3646
中文摘要:
      文本分类是信息检索的关键问题之一.提取更多的可信反例和构造准确高效的分类器是PU(positive andunlabeled)文本分类的两个重要问题.然而,在现有的可信反例提取方法中,很多方法提取的可信反例数量较少,构建的分类器质量有待提高.分别针对这两个重要步骤提供了一种基于聚类的半监督主动分类方法.与传统的反例提取方法不同,利用聚类技术和正例文档应与反例文档共享尽可能少的特征项这一特点,从未标识数据集中尽可能多地移除正例,从而可以获得更多的可信反例.结合SVM 主动学习和改进的Rocchio 构建分类器,并采用改进的TFIDF(term frequency inverse document frequency)进行特征提取,可以显著提高分类的准确度.分别在3 个不同的数据集中测试了分类结果(RCV1,Reuters-21578,20 Newsgoups).实验结果表明,基于聚类寻找可信反例可以在保持较低错误率的情况下获取更多的可信反例,而且主动学习方法的引入也显著提升了分类精度.
英文摘要:
      Text classification is a key technology in information retrieval. Collecting more reliable negative examples, and building effective and efficient classifiers are two important problems for automatic text classification. However, the existing methods mostly collect a small number of reliable negative examples, keeping the classifiers from reaching high accuracy. In this paper, a clustering-based method for automatic PU (positive and unlabeled) text classification enhanced by SVM active learning is proposed. In contrast to traditional methods, this approach is based on the clustering technique which employs the characteristic that positive and negative examples should share as few words as possible. It finds more reliable negative examples by removing as many probable positive examples from unlabeled set as possible. In the process of building classifier, a term weighting scheme TFIPNDF (term frequency inverse positive-negative document frequency, improved TFIDF) is adopted. An additional improved Rocchio, in conjunction with SVMs active learning, significantly improves the performance of classifying. Experimental results on three different datasets (RCV1, Reuters-21578, 20 Newsgroups) show that the proposed clustering- based method extracts more reliable negative examples than the baseline algorithms with very low error rates and implementing SVM active learning also improves the accuracy of classification significantly.
HTML  下载PDF全文  查看/发表评论  下载PDF阅读器
 

京公网安备 11040202500064号

主办单位:中国科学院软件研究所 中国计算机学会
编辑部电话:+86-10-62562563 E-mail: jos@iscas.ac.cn
Copyright 中国科学院软件研究所《软件学报》版权所有 All Rights Reserved
本刊全文数据库版权所有,未经许可,不得转载,本刊保留追究法律责任的权利