面向位置大数据的快速密度聚类算法
作者:
作者单位:

作者简介:

于彦伟(1986-),男,山东菏泽人,博士,副教授,CCF专业会员,主要研究领域为数据挖掘,机器学习,分布式计算;赵金东(1974-),男,博士,副教授,主要研究领域为智能数据处理,无线传感器网络;贾召飞(1995-),男,学士,主要研究领域为聚类分析;刘兆伟(1979-),男,副教授,CCF专业会员,主要研究领域为机器学习;曹磊(1983-),男,博士,研究员,主要研究领域为数据挖掘,数据库系统;刘惊雷(1971-),男,博士,教授,CCF专业会员,主要研究领域为机器学习,数据挖掘

通讯作者:

于彦伟,E-mail:yuyanwei@ytu.edu.cn,http://www.ytu.edu.cn

中图分类号:

基金项目:

国家自然科学基金(61403328,61773331,61572419,61502410);山东省重点研发计划(2015GSF115009);山东省自然科学基金(ZR2013FM011,ZR2013FQ023,ZR2014FQ016)


Fast Density-Based Clustering Algorithm for Location Big Data
Author:
Affiliation:

Fund Project:

National Natural Science Foundation of China (61403328, 61773331, 61572419, 61502410); Key Research and Development Program of Shandong Province (2015GSF115009); Shandong Provincial Natural Science Foundation (ZR2013FM011, ZR2013FQ023, ZR2014FQ016)

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    面向位置大数据聚类,提出了一种简单但高效的快速密度聚类算法CBSCAN,以快速发现位置大数据中任意形状的聚类簇模式和噪声.首先,定义了Cell网格概念,并提出了基于Cell的距离分析理论,利用该距离分析,无需距离计算,可快速确定高密度区域的核心点和密度相连关系;其次,给出了网格簇定义,将基于位置点的密度簇映射成基于网格的密度簇,利用排他网格与相邻网格的密度关系,可快速确定网格簇的包含网格;第三,利用基于Cell的距离分析理论和网格簇概念,实现了一个快速密度聚类算法,将DBSCAN基于数据点的密度扩展聚类转换成基于Cell的密度扩展聚类,极大地减少高密度区域的距离计算,利用位置数据的内在特性提高了聚类效率;最后,在基准测试数据上验证了所提算法的聚类效果,在位置大数据上的实验结果统计显示,与DBSCAN、PR-Tree索引和Grid索引优化的DBSCAN相比,CBSCAN分别平均提升了525倍、30倍和11倍效率.

    Abstract:

    This paper proposes a simple but efficient density-based clustering, named CBSCAN, to fast discover cluster patterns with arbitrary shapes and noises from location big data effectively. Firstly, the notion of Cell is defined and a distance analysis principle based on Cell is proposed to quickly find core points in high density areas and density relationships with other points without distance computing. Secondly, a Cell-based cluster that maps point-based density cluster to grid-based density cluster is presented. By leveraging exclusion grids and relationships with their adjacent grids, all inclusion grids of Cell-based cluster can be rapidly determined. Furthermore, a fast density-based algorithm based on the distance analysis principle and Cell-base cluster is implemented to transform DBSCAN of point-based expansion to Cell-based expansion clustering. The proposed algorithm improves clustering efficiency significantly by using inherent property of location data to reduce huge number of distance calculations. Finally, comprehensive experiments on benchmark datasets demonstrate the clustering effectiveness of the proposed algorithm. Experimental results on massive-scale real and synthetic location datasets show that CBSCAN improves 525 fold, 30 fold and 11 fold of efficiency compared with DBSCAN, DBSCAN with PR-Tree and Grid index optimization respectively.

    参考文献
    相似文献
    引证文献
引用本文

于彦伟,贾召飞,曹磊,赵金东,刘兆伟,刘惊雷.面向位置大数据的快速密度聚类算法.软件学报,2018,29(8):2470-2484

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2016-09-03
  • 最后修改日期:2016-10-03
  • 录用日期:
  • 在线发布日期: 2017-07-20
  • 出版日期:
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号