联合Laplacian正则项和特征自适应的数据聚类算法
作者:
作者单位:

作者简介:

郑建炜(1982-),男,浙江嵊州人,博士,副教授,CCF专业会员,主要研究领域为数据挖掘,模式识别,机器学习,数值最优化;李卓蓉(1986-),女,博士,讲师,CCF专业会员,主要研究领域为人工智能,大数据分析,深度学习;王万良(1957-),男,博士,教授,博士生导师,主要研究领域为智能科学,人工智能,大数据分析;陈婉君(1982-),女,讲师,主要研究领域为智能科学,数据分析.

通讯作者:

王万良,E-mail:wwl@zjut.edu.cn

中图分类号:

TP391

基金项目:

国家自然科学基金(61602413,61873240);浙江省自然科学基金(LY19F030016)


Clustering with Joint Laplacian Regularization and Adaptive Feature Learning
Author:
Affiliation:

Fund Project:

National Natural Science Foundation of China (61602413, 61873240); Natural Science Foundation of Zhejiang Province of China (LY19F030016)

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    在信息爆炸时代,大数据处理已成为当前国内外热点研究方向之一.谱分析型算法因其特有的性能而获得了广泛的应用,然而受维数灾难影响,主流的谱分析法对高维数据的处理仍是一个极具挑战的问题.提出一种兼顾维数特征优选和图Laplacian约束的聚类模型,即联合拉普拉斯正则项和自适应特征学习(joint Laplacian regularization and adaptive feature learning,简称LRAFL)的数据聚类算法.基于自适应近邻进行图拉普拉斯学习,并将低维嵌入、特征选择和子空间聚类纳入同一框架,替换传统谱聚类算法先图Laplacian构建、后谱分析求解的两级操作.通过添加非负加和约束以及低秩约束,LRAFL能获得稀疏的特征权值向量并具有块对角结构的Laplacian矩阵.此外,提出一种有效的求解方法用于模型参数优化,并对算法的收敛性、复杂度以及平衡参数设定进行了理论分析.在合成数据和多个公开数据集上的实验结果表明,LRAFL在效果效率及实现便捷性等指标上均优于现有的其他数据聚类算法.

    Abstract:

    The explosion of information has been evoking a leading wave of big data research during recent years. Despite many empirical successes of spectral clustering algorithms, it is still challenging to cluster the high dimensional data due to the curse of dimensionality. This study proposes a novel algorithm referred to as joint Laplacian regularization and adaptive feature learning (LRAFL), which adaptively learns the feature weights and fits the feature selection as well as clustering into a unified framework, rather than the two-phase strategy of typical approaches. With a new rank constraint imposed on the Laplacian matrix, the connected components in the resulted similarity matrix are exactly equal to the cluster number. An effective approach is also proposed to solve the formulated optimization problem. Comprehensive analyses, including convergence behavior, computational complexity, and together with parameter determination are also presented. Surprisingly sound experimental results can be achieved on synthetic data and benchmark datasets by the proposed algorithm when compared with the related state-of-the-art clustering approaches.

    参考文献
    相似文献
    引证文献
引用本文

郑建炜,李卓蓉,王万良,陈婉君.联合Laplacian正则项和特征自适应的数据聚类算法.软件学报,2019,30(12):3846-3861

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2016-12-03
  • 最后修改日期:2017-12-07
  • 录用日期:
  • 在线发布日期: 2019-12-05
  • 出版日期:
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号