主页期刊介绍编委会编辑部服务介绍道德声明在线审稿编委办公编辑办公English
2018-2019年专刊出版计划 微信服务介绍 最新一期:2019年第6期
     
在线出版
各期目录
纸质出版
分辑系列
论文检索
论文排行
综述文章
专刊文章
美文分享
各期封面
E-mail Alerts
RSS
旧版入口
中国科学院软件研究所
  
投稿指南 问题解答 下载区 收费标准 在线投稿
张明卫,刘莹,张斌,朱志良.一种基于概念的数据聚类模型.软件学报,2009,20(9):2387-2396
一种基于概念的数据聚类模型
Concept-Based Data Clustering Model
投稿时间:2007-10-28  
DOI:
中文关键词:  数据挖掘  聚类  概念  概念元组  模型
英文关键词:data mining  clustering  concept  concept tuple  model
基金项目:Supported by the National Natural Science Foundation of China under Grant No.60773218 (国家自然科学基金); the Key Project of the National ‘Tenth Five-Year-Plan’ of the Ministry of Science and Technology of China under Grant No.2004BA721A05 (国家科技部“十五”攻关项目)
作者单位
张明卫 东北大学 信息科学与工程学院,辽宁 沈阳 110004东北大学 软件学院,辽宁 沈阳 110004 
刘莹 东北大学 软件学院,辽宁 沈阳 110004 
张斌 东北大学 信息科学与工程学院,辽宁 沈阳 110004 
朱志良 东北大学 软件学院,辽宁 沈阳 110004 
摘要点击次数: 3799
全文下载次数: 4075
中文摘要:
      在数据挖掘研究领域,现有的大多数聚类算法都受到数据可伸缩性和结果可解释性的限制.为了解决这一难题,提出了一种基于概念的数据聚类模型.该模型从描述数据样本的数据本身出发,首先在预处理后的数据集上提取基本概念,再对这些概念进行概化,形成表示聚类结果的高层概念,最后基于这些高层概念进行样本划分,从而完成整个聚类过程.该模型能够在保证聚类准确性的基础上,很大程度地减少要处理的数据量,提高原算法的可伸缩性.另外,该模型基于概念进行知识的发现与分析,能够提高聚类结果的可解释性,便于与用户交互.实验结果表明,该模型对于聚类结果较好且复杂度较高的算法尤为有效.
英文摘要:
      In data mining, lots of clustering algorithms have been developed, and most of them are limited by scalability and interpretability. To solve this problem, a concept-based data clustering model is presented. From the perspective of the metadata describing samples, some basic concepts are extracted from the preprocessed dataset firstly in this model, and then generalizes, higher level concepts representing clustering results. Finally, the samples are classified into different final concepts and the clustering process is completed. On the premise of ensuring the accuracy of the clustering results, this model can greatly decrease the number of tuples needing to be processed, improving the data scalability of clustering algorithms. In addition, to discover and analyze knowledge based on concepts, this model can improve the interpretability of clustering results, and facilitate to interact with users. Experimental results show that the proposed model is more useful to the algorithms with higher computation cost and better results.
HTML  下载PDF全文  查看/发表评论  下载PDF阅读器
 

京公网安备 11040202500064号

主办单位:中国科学院软件研究所 中国计算机学会
编辑部电话:+86-10-62562563 E-mail: jos@iscas.ac.cn
Copyright 中国科学院软件研究所《软件学报》版权所有 All Rights Reserved
本刊全文数据库版权所有,未经许可,不得转载,本刊保留追究法律责任的权利