基于代表点与K近邻的密度峰值聚类算法
作者:
作者单位:

作者简介:

张清华(1974-),男,博士,教授,博士生导师,CCF专业会员,主要研究领域为粗糙集,模糊集,粒计算,不确定性信息处理.;周靖鹏(1999-),男,硕士生,主要研究领域为粗糙集,机器学习,数据挖掘.;代永杨(1996-),男,硕士生,主要研究领域为粗糙集,机器学习,不确定性信息处理.;王国胤(1970-),男,博士,教授,博士生导师,CCF会士,主要研究领域为粗糙集,粒计算,数据挖掘.

通讯作者:

张清华,E-mail:zhangqh@cqupt.edu.cn

中图分类号:

TP18

基金项目:

国家重点研发计划(2020YFC2003502); 国家自然科学基金(61876201); 重庆市自然科学基金(cstc2019jcyj-cxttX0002, cstc2021ycjh-bgzxm0013); 重庆市教委重点合作项目(HZ2021008)


Density Peaks Clustering Algorithm Based on Representative Points and K-nearest Neighbors
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    密度峰值聚类(density peaks clustering, DPC)是一种基于密度的聚类算法, 该算法可以直观地确定类簇数量, 识别任意形状的类簇, 并且自动检测、排除异常点. 然而, DPC仍存在些许不足: 一方面, DPC算法仅考虑全局分布, 在类簇密度差距较大的数据集聚类效果较差; 另一方面, DPC中点的分配策略容易导致“多米诺效应”. 为此, 基于代表点(representative points)与K近邻(K-nearest neighbors, KNN)提出了RKNN-DPC算法. 首先, 构造了K近邻密度, 再引入代表点刻画样本的全局分布, 提出了新的局部密度; 然后, 利用样本的K近邻信息, 提出一种加权的K近邻分配策略以缓解“多米诺效应”; 最后, 在人工数据集和真实数据集上与5种聚类算法进行了对比实验, 实验结果表明, 所提出的RKNN-DPC可以更准确地识别类簇中心并且获得更好的聚类结果.

    Abstract:

    Density peaks clustering (DPC) is a density-based clustering algorithm that can intuitively determine the number of clusters, identify clusters of any shape, and automatically detect and exclude abnormal points. However, DPC still has some shortcomings: The DPC algorithm only considers the global distribution, and the clustering performance is poor for datasets with large cluster density differences. In addition, the point allocation strategy of DPC is likely to cause a Domino effect. Hence, this study proposes a DPC algorithm based on representative points and K-nearest neighbors (KNN), namely, RKNN-DPC. First, the KNN density is constructed, and the representative points are introduced to describe the global distribution of samples and propose a new local density. Then, the KNN information of samples is used to propose a weighted KNN allocation strategy to relieve the Domino effect. Finally, a comparative experiment is conducted with five clustering algorithms on artificial datasets and real datasets. The experimental results show that the RKNN-DPC algorithm can more accurately identify cluster centers and obtain better clustering results.

    参考文献
    相似文献
    引证文献
引用本文

张清华,周靖鹏,代永杨,王国胤.基于代表点与K近邻的密度峰值聚类算法.软件学报,2023,34(12):5629-5648

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2021-12-21
  • 最后修改日期:2022-04-18
  • 录用日期:
  • 在线发布日期: 2023-03-08
  • 出版日期:
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号