一种基于极大熵的快速无监督线性降维方法
作者:
作者单位:

作者简介:

王继奎(1978-),男,博士,副教授,CCF专业会员,主要研究领域为机器学习,人工智能;杨正国(1987-),男,博士,副教授,CCF专业会员,主要研究领域为机器学习,人工智能;刘学文(1996-),男,硕士生,CCF学生会员,主要研究领域为机器学习,人工智能;易纪海(1974-),男,讲师,主要研究领域为机器学习,人工智能;李冰(1997-),女,硕士生,主要研究领域为机器学习,人工智能;聂飞平(1977-),男,博士,教授,博士生导师,CCF专业会员,主要研究领域为机器学习,人工智能.

通讯作者:

中图分类号:

TP18

基金项目:

国家自然科学基金 (61772427, 11801345); 甘肃省高等学校创新能力提升项目(2019B-97); 兰州财经大学校级重点项目(Lzufe2020B-0010, Lzufe2020B-011)


Fast Unsupervised Dimension Reduction Method Based on Maximum Entropy
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    现实世界中高维数据无处不在, 然而在高维数据中往往存在大量的冗余和噪声信息, 这导致很多传统聚类算法在对高维数据聚类时不能获得很好的性能. 实践中发现高维数据的类簇结构往往嵌入在较低维的子空间中. 因而, 降维成为挖掘高维数据类簇结构的关键技术. 在众多降维方法中, 基于图的降维方法是研究的热点. 然而, 大部分基于图的降维算法存在以下两个问题: (1)需要计算或者学习邻接图, 计算复杂度高; (2)降维的过程中没有考虑降维后的用途. 针对这两个问题, 提出一种基于极大熵的快速无监督降维算法MEDR. MEDR算法融合线性投影和极大熵聚类模型, 通过一种有效的迭代优化算法寻找高维数据嵌入在低维子空间的潜在最优类簇结构. MEDR算法不需事先输入邻接图, 具有样本个数的线性时间复杂度. 在真实数据集上的实验结果表明, 与传统的降维方法相比, MEDR算法能够找到更好地将高维数据投影到低维子空间的投影矩阵, 使投影后的数据有利于聚类.

    Abstract:

    High-dimensional data is widely adopted in the real world. However, there is usually plenty of redundant and noisy information existing in high-dimensional data, which accounts for the poor performance of many traditional clustering algorithms when clustering high-dimensional data. In practice, it is found that the cluster structure of high-dimensional data is often embedded in the lower dimensional subspace. Therefore, dimension reduction becomes the key technology of mining high-dimensional data. Among many dimension reduction methods, graph-based method becomes a research hotspot. However, most graph-based dimension reduction algorithms suffer from the following two problems: (1) most of the graph-based dimension reduction algorithms need to calculate or learn adjacency graphs, which have high computational complexity; (2) the purpose of dimension reduction is not considered in the process of dimension reduction. To address the problem, a fast unsupervised dimension reduction algorithm is proposed based on the maximum entropy-MEDR, which combines linear projection and the maximum entropy clustering model to find the potential optimal cluster structure of high-dimensional data embedded in low-dimensional subspace through an effective iterative optimization algorithm. The MEDR algorithm does not need the adjacency graph as an input in advance, and has linear time complexity of input data scale. A large number of experimental results on real datasets show that the MEDR algorithm can find a better projection matrix to project high-dimensional data into low-dimensional subspace compared with the traditional dimensionality reduction method, so that the projected data is conducive to clustering analysis.

    参考文献
    相似文献
    引证文献
引用本文

王继奎,杨正国,刘学文,易纪海,李冰,聂飞平.一种基于极大熵的快速无监督线性降维方法.软件学报,2023,34(4):1779-1795

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2021-02-22
  • 最后修改日期:2021-05-19
  • 录用日期:
  • 在线发布日期: 2022-06-15
  • 出版日期: 2023-04-06
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号