主页期刊介绍编委会编辑部服务介绍道德声明在线审稿编委办公编辑办公English
2018-2019年专刊出版计划 微信服务介绍 最新一期:2018年第12期
     
在线出版
各期目录
纸质出版
分辑系列
论文检索
论文排行
综述文章
专刊文章
美文分享
各期封面
E-mail Alerts
RSS
旧版入口
中国科学院软件研究所
  
投稿指南 问题解答 下载区 收费标准 在线投稿
丁世飞,贾洪杰,史忠植.基于自适应Nyström采样的大数据谱聚类算法.软件学报,2014,25(9):2037-2049
基于自适应Nyström采样的大数据谱聚类算法
Spectral Clustering Algorithm Based on Adaptive Nyström Sampling for Big Data Analysis
投稿时间:2014-04-07  修订日期:2014-05-14
DOI:10.13328/j.cnki.jos.004643
中文关键词:  大数据  谱聚类  特征分解  Nyströ  m扩展  自适应采样
英文关键词:big data  spectral clustering  eigen-decomposition  Nyströ  m extension  adaptive sampling
基金项目:国家重点基础研究发展计划(973)(2013CB329502); 国家自然科学基金(61379101)
作者单位E-mail
丁世飞 中国矿业大学 计算机科学与技术学院, 江苏 徐州 221116
中国科学院 计算技术研究所 智能信息处理重点实验室, 北京 100190 
dingsf@cumt.edu.cn 
贾洪杰 中国矿业大学 计算机科学与技术学院, 江苏 徐州 221116
中国科学院 计算技术研究所 智能信息处理重点实验室, 北京 100190 
 
史忠植 中国科学院 计算技术研究所 智能信息处理重点实验室, 北京 100190  
摘要点击次数: 3042
全文下载次数: 2704
中文摘要:
      面对结构复杂的数据集,谱聚类是一种灵活而有效的聚类方法,它基于谱图理论,通过将数据点映射到一个由特征向量构成的低维空间,优化数据的结构,得到令人满意的聚类结果.但在谱聚类的过程中,特征分解的计算复杂度通常为O(n3),限制了谱聚类算法在大数据中的应用.Nyström扩展方法利用数据集中的部分抽样点,进行近似计算,逼近真实的特征空间,可以有效降低计算复杂度,为大数据谱聚类算法提供了新思路.抽样策略的选择对Nyström扩展技术至关重要,设计了一种自适应的Nyström采样方法,每个数据点的抽样概率都会在一次采样完成后及时更新,而且从理论上证明了抽样误差会随着采样次数的增加呈指数下降.基于自适应的Nyström采样方法,提出一种适用于大数据的谱聚类算法,并对该算法的可行性和有效性进行了实验验证.
英文摘要:
      Spectral clustering is a flexible and effective clustering method for complex structure data sets. It is based on spectral graph theory and can produce satisfactory clustering results by mapping the data points into a low-dimensional space constituted by eigenvectors so that the data structure is optimized. But in the process of spectral clustering, the computational complexity of eigen-decomposition is usually O(n3), which limits the application of spectral clustering algorithm in big data problems. Nyström extension method uses partial points sampled from the data set and approximate calculation to simulate the real eigenspace. In this way, the computational complexity can be effectively reduced, which provides a new idea for big data spectral clustering algorithm. The selection of sampling strategy is essential for Nyström extension technology. In this paper, the design of an adaptive Nyström sampling method is presented. The sampling probability of every data point will be updated after each sampling pass, and a proof is given that the sampling error will decrease exponentially with the increase of sample times. Based on the adaptive Nyström sampling method, a spectral clustering algorithm for big data analysis is presented, and its feasibility and effectiveness is verified by experiments.
HTML  下载PDF全文  查看/发表评论  下载PDF阅读器
 

京公网安备 11040202500064号

主办单位:中国科学院软件研究所 中国计算机学会
编辑部电话:+86-10-62562563 E-mail: jos@iscas.ac.cn
Copyright 中国科学院软件研究所《软件学报》版权所有 All Rights Reserved
本刊全文数据库版权所有,未经许可,不得转载,本刊保留追究法律责任的权利