主页期刊介绍编委会编辑部服务介绍道德声明在线审稿编委办公编辑办公English
2020-2021年专刊出版计划 微信服务介绍 最新一期:2020年第5期
     
在线出版
各期目录
纸质出版
分辑系列
论文检索
论文排行
综述文章
专刊文章
美文分享
各期封面
E-mail Alerts
RSS
旧版入口
中国科学院软件研究所
  
投稿指南 问题解答 下载区 收费标准 在线投稿
雷斌,许嘉,谷峪,于戈.概率数据上基于EMD距离的并行Top-k相似性连接算法.软件学报,2013,24(S2):188-199
概率数据上基于EMD距离的并行Top-k相似性连接算法
Parallel Top-k Similarity Join Algorithm on Probabilistic Data Based on Earth Mover’s Distance
投稿时间:2013-03-15  修订日期:2013-07-11
DOI:
中文关键词:  概率数据  EMD 距离  并行Top-k 相似性连接  MapReduce 框架  对偶理论
英文关键词:probabilistic data, earth mover’s distance, parallel Top-k similarity join, MapReduce, primal-dual theory
基金项目:国家重点基础研究发展计划(973)(2012CB316201);国家自然科学基金(61272179, 61033007);教育部博士点基金(20120042110028);教育部-英特尔信息技术专项科研基金(MOE-INTEL-2012-06);中央高校基本科研业务费专项资金课题(N100704001, N110404006)
作者单位E-mail
雷斌 东北大学 信息科学与工程学院 软件与理论研究所, 沈阳 110819  
许嘉 东北大学 信息科学与工程学院 软件与理论研究所, 沈阳 110819  
谷峪 东北大学 信息科学与工程学院 软件与理论研究所, 沈阳 110819  
于戈 东北大学 信息科学与工程学院 软件与理论研究所, 沈阳 110819 yuge@mail.neu.edu.cn 
摘要点击次数: 1849
全文下载次数: 2093
中文摘要:
      以无线传感器网络为代表的新型数据应用和以图像处理为基础的传统数据应用都产生了大规模的概率数据.在概率数据的管理中,Top-k相似性连接操作返回最相似的k 对概率数据,具有重要应用价值.直方图是最常用的概率数据模型之一,而EMD(Earth Mover’s Distance)距离因其较强的鲁棒性可更准确地量化直方图概率数据之间的相似性.然而EMD距离的计算却具有三次方的时间复杂度,给基于EMD距离的Top-k 相似性连接带来巨大挑战.基于流行的MapReduce并行处理框架,利用EMD距离对偶线性规划问题的优良特性,提出了两种大规模概率数据上基于EMD距离的Top-k相似性连接算法.首先提出基于块嵌套循环连接思想的基本解决方法,命名为Top-k BNLJ算法.进而改进数据划分策略,提出基于数据局部性进行数据划分的Top-k DLPJ 算法,有效降低了MapReduce作业执行过程中的数据传输量.使用大规模真实数据集对两种算法进行评估,证实了本文提出的Top-k DLPJ算法的高效性和处理大规模数据集时的良好扩展性.
英文摘要:
      Many new data applications, such as wireless sensor networks, and traditional data applications that process images produce massive probabilistic data. In probabilistic data management, the Top-k similarity join operation returns the most similar k pairs of probabilistic data and thus has important value. Histogram is one of the most frequently-used data models for representing probabilistic data. Earth Mover's Distance (EMD) is more robust in quantifying the similarities between histogram-represented probabilistic data. However, EMD computation has a cubic time complexity, which brings great challenges to the EMD-based Top-k similarity joins. Based on the MapReduce framework, this paper utilizes the good properties of EMD's dual problem and proposes two EMD-based Top-k similarity join algorithms on massive probabilistic dataset. A baseline solution named Top-k BNLJ algorithm is first developed on the idea of block-nested-loop join, and the novel Top-k DLPJ algorithm is then built on the improved idea of data locality preserving data partition strategy which significantly reduces the amount of data transferred during MapReduce jobs. Extensive experiments on large real-world datasets, with millions of probabilistic data, have verified the efficiency, effectiveness and scalability of Top-k DLPJ algorithm.
HTML  下载PDF全文  查看/发表评论  下载PDF阅读器
 

京公网安备 11040202500064号

主办单位:中国科学院软件研究所 中国计算机学会 京ICP备05046678号-4
编辑部电话:+86-10-62562563 E-mail: jos@iscas.ac.cn
Copyright 中国科学院软件研究所《软件学报》版权所有 All Rights Reserved
本刊全文数据库版权所有,未经许可,不得转载,本刊保留追究法律责任的权利