概率数据上基于EMD距离的并行Top-k相似性连接算法
DOI:
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:

国家重点基础研究发展计划(973)(2012CB316201);国家自然科学基金(61272179, 61033007);教育部博士点基金(20120042110028);教育部-英特尔信息技术专项科研基金(MOE-INTEL-2012-06);中央高校基本科研业务费专项资金课题(N100704001, N110404006)


Parallel Top-k Similarity Join Algorithm on Probabilistic Data Based on Earth Mover’s Distance
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    以无线传感器网络为代表的新型数据应用和以图像处理为基础的传统数据应用都产生了大规模的概率数据.在概率数据的管理中,Top-k相似性连接操作返回最相似的k 对概率数据,具有重要应用价值.直方图是最常用的概率数据模型之一,而EMD(Earth Mover’s Distance)距离因其较强的鲁棒性可更准确地量化直方图概率数据之间的相似性.然而EMD距离的计算却具有三次方的时间复杂度,给基于EMD距离的Top-k 相似性连接带来巨大挑战.基于流行的MapReduce并行处理框架,利用EMD距离对偶线性规划问题的优良特性,提出了两种大规模概率数据上基于EMD距离的Top-k相似性连接算法.首先提出基于块嵌套循环连接思想的基本解决方法,命名为Top-k BNLJ算法.进而改进数据划分策略,提出基于数据局部性进行数据划分的Top-k DLPJ 算法,有效降低了MapReduce作业执行过程中的数据传输量.使用大规模真实数据集对两种算法进行评估,证实了本文提出的Top-k DLPJ算法的高效性和处理大规模数据集时的良好扩展性.

    Abstract:

    Many new data applications, such as wireless sensor networks, and traditional data applications that process images produce massive probabilistic data. In probabilistic data management, the Top-k similarity join operation returns the most similar k pairs of probabilistic data and thus has important value. Histogram is one of the most frequently-used data models for representing probabilistic data. Earth Mover's Distance (EMD) is more robust in quantifying the similarities between histogram-represented probabilistic data. However, EMD computation has a cubic time complexity, which brings great challenges to the EMD-based Top-k similarity joins. Based on the MapReduce framework, this paper utilizes the good properties of EMD's dual problem and proposes two EMD-based Top-k similarity join algorithms on massive probabilistic dataset. A baseline solution named Top-k BNLJ algorithm is first developed on the idea of block-nested-loop join, and the novel Top-k DLPJ algorithm is then built on the improved idea of data locality preserving data partition strategy which significantly reduces the amount of data transferred during MapReduce jobs. Extensive experiments on large real-world datasets, with millions of probabilistic data, have verified the efficiency, effectiveness and scalability of Top-k DLPJ algorithm.

    参考文献
    相似文献
    引证文献
引用本文

雷斌,许嘉,谷峪,于戈.概率数据上基于EMD距离的并行Top-k相似性连接算法.软件学报,2013,24(S2):188-199

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2013-03-15
  • 最后修改日期:2013-07-11
  • 录用日期:
  • 在线发布日期: 2014-01-02
  • 出版日期:
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号