摘要:具有噪声的基于密度的数据聚类(DBSCAN)算法是数据挖掘领域中的经典方法之一, 其不仅能发现数据中潜藏的复杂关系, 还能过滤其中的数据噪声, 从而获得高质量的数据聚类. 然而, 现有的基于密度的数据聚类算法仅支持单模态(类型)数据的聚类, 难以应对多模态(类型)数据并存的应用场景. 随着信息技术的快速发展, 数据呈现多模态化的发展态势, 现实生活中的数据不再是单一的数据类型, 而是多种数据模态(类型)的组合, 如文本、图像、地理坐标、数据特征等. 因此, 现有的数据聚类方法难以对复杂的多模态数据进行有效的数据建模, 更无法进行高效的多模态数据聚类. 基于此, 提出一种基于密度的多度量空间聚类算法. 首先, 为了刻画多模态数据间的复杂关系, 利用多度量空间表征数据之间的相似性关系, 并且利用聚合多度量图索引(AMG)实现多模态数据建模. 接着, 利用差分化的相似性关系优化聚合多度量图的图结构, 并且结合最优策略优先的搜索策略进行剪枝, 以实现高效的多模态数据聚类. 最后, 在真实与合成数据集上针对多种参数设置进行实验. 实验结果验证了所提方法运行效率提升了至少1个数量级, 并具有较高的聚类精度与良好的可扩展性.