主页期刊介绍编委会编辑部服务介绍道德声明在线审稿编委办公编辑办公English
2018-2019年专刊出版计划 微信服务介绍 最新一期:2019年第10期
     
在线出版
各期目录
纸质出版
分辑系列
论文检索
论文排行
综述文章
专刊文章
美文分享
各期封面
E-mail Alerts
RSS
旧版入口
中国科学院软件研究所
  
投稿指南 问题解答 下载区 收费标准 在线投稿
邓 超,郭茂祖.基于Tri-Training和数据剪辑的半监督聚类算法.软件学报,2008,19(3):663-673
基于Tri-Training和数据剪辑的半监督聚类算法
Tri-Training and Data Editing Based Semi-Supervised Clustering Algorithm
投稿时间:2006-06-21  修订日期:2007-03-07
DOI:
中文关键词:  半监督聚类  半监督分类  K-均值  seeds集  Tri-Training  Depuration数据剪辑
英文关键词:semi-supervised clustering  semi-supervised classification  K-means  seeds set  Tri-training  depuration data editing
基金项目:Supported by the National Natural Science Foundation of China under Grant Nos.60702033,60772076(国家自然科学基金);the National High-Tech Researth and Development Plan of China under Grant No.2007AA012171(国家高技术研究发展计划(863));the Science Fund for Distinguished Young Scholars of Heilongjiang Province of China under Grant No.JC200611(黑龙江省杰出青年科学基金);the Natural Science Foundation of Heilongjiaag Province of China under Grant No.ZJG0705(黑龙江省自然科学重点基金);the Foundation of Harbin Institute of Technology of China under Grant No.HIT.2003.53(哈尔滨工业大学校基金)
作者单位
邓 超 哈尔滨工业大学 计算机科学与技术学院,黑龙江 哈尔滨 150001 
郭茂祖 哈尔滨工业大学 计算机科学与技术学院,黑龙江 哈尔滨 150001 
摘要点击次数: 3654
全文下载次数: 5103
中文摘要:
      提出一种半监督聚类算法,该算法在用seeds集初始化聚类中心前,利用半监督分类方法Tri-training的迭代训练过程对无标记数据进行标记,并加入seeds集以扩大规模;同时,在Tri-training训练过程中结合基于最近邻规则的Depuration数据剪辑技术对seeds集扩大过程中产生的误标记噪声数据进行修正、净化,以提高seeds集质量.实验结果表明,所提出的基于Tri-training和数据剪辑的DE-Tri-training半监督聚类新算法能够有效改善seeds集对聚类中心的初始化效果,提高聚类性能.
英文摘要:
      In this paper, a algorithm named DE-Tri-training semi-supervised K-means is proposed, which could get a seeds set of larger scale and less noise. In detail, prior to using the seeds set to initialize cluster centroids, the training process of a semi-supervised classification approach named Tri-training is used to label unlabeled data and add them into the initial seeds set to enlarge the scale. Meanwhile, to improve the quality of the enlarged seeds set, a nearest neighbor rule based data editing technique named Depuration is introduced into Tri-training process to eliminate and correct the mislabeled noise data in the enlarged seeds. Experimental results show that the novel semi-supervised clustering algorithm could effectively improve the cluster centroids initialization and enhance clustering performance.
HTML  下载PDF全文  查看/发表评论  下载PDF阅读器
 

京公网安备 11040202500064号

主办单位:中国科学院软件研究所 中国计算机学会 京ICP备05046678号-4
编辑部电话:+86-10-62562563 E-mail: jos@iscas.ac.cn
Copyright 中国科学院软件研究所《软件学报》版权所有 All Rights Reserved
本刊全文数据库版权所有,未经许可,不得转载,本刊保留追究法律责任的权利