主页期刊介绍编委会编辑部服务介绍道德声明在线审稿编委办公编辑办公English
     
在线出版
各期目录
纸质出版
分辑系列
论文检索
论文排行
综述文章
专刊文章
美文分享
各期封面
E-mail Alerts
RSS
旧版入口
中国科学院软件研究所
  
投稿指南 问题解答 下载区 收费标准 在线投稿
张沪寅,周景才,陈毅波,查文亮.用户感知的重复数据删除算法.软件学报,2015,26(10):2581-2595
用户感知的重复数据删除算法
User-Aware De-Duplication Algorithm
投稿时间:2014-07-22  修订日期:2014-09-29
DOI:10.13328/j.cnki.jos.004795
中文关键词:  重复数据删除  云计算  虚拟桌面云  I/O性能瓶颈  数据局部性
英文关键词:data deduplication  cloud computing  virtual desktop instrument  I/O performance bottleneck  data locality
基金项目:国家自然科学基金(61272454);高等学校博士学科点专项科研基金(20130141110022)
作者单位E-mail
张沪寅 武汉大学 计算机学院, 湖北 武汉 430072  
周景才 武汉大学 计算机学院, 湖北 武汉 430072
深圳华为技术有限公司 IT标准与专利部, 广东 深圳 518219 
68209669@qq.com 
陈毅波 国网湖南省电力公司 信息通信公司, 湖南 长沙 410000  
查文亮 武汉大学 计算机学院, 湖北 武汉 430072  
摘要点击次数: 2107
全文下载次数: 1882
中文摘要:
      通过大量的实验分析发现:在云桌面场景下,数据拥有者之间的工作相关度越大,则该用户之间存在重复数据的概率越大.基于该实验结果,提出了用户感知的重复数据删除算法.该算法打破了数据空间局部性特征的限制,实现了以用户为单位的更粗粒度的查重计算,可以在不影响重删率的前提下,减少5~10倍常驻内存指纹的数量,并可将每次查重计算的指纹检索范围控制在一个常数范围内,不随数据总量的增加而线性增加,从而有效避免了因为数据总量增加而导致内存不足的问题.除此之外,该算法还能根据存储系统的负载情况自动调整重复指纹检索范围,在性能与重删率之间加以平衡,从而更好地满足主存储场景的需要.原型验证表明,该算法可以很好地解决云计算场景下海量数据的重复数据删除性能问题.与OpenDedup算法相比,当数据指纹总量超出内存可用空间时,该算法可以表现出巨大的优势,减少200%以上的读磁盘操作,响应速度提升3倍以上.
英文摘要:
      By doing a lot of experiments, if two users have more cross-project then they will own more duplication data at a virtual desktop instrument system. So, according to this finding, this paper proposes a user-aware de-duplication algorithm. This algorithm breaks the rule of data locality and can work at the new rule of user locality. According to the new rule, it just need load one user's finger print data into memory for each user group. So it can reduce 5x~10x memory requirements than other algorithm and it can control the searching scope in a limited number for each checking besides. So this algorithm can avoid a lot of read I/O operations. Meanwhile, this algorithm can adjust the searching scope dynamically according to the current workload of VDI system. Because it always tries to get the best de-duplication rate but not affect the response time of VDI system. The prototype experimental results show that it can improve the performance of de-duplication algorithm, especially when it used in a massive data storage system. Compared with OpenDedup, the algorithm can reduce more than 200% read I/O operations and can accelerate the response time more than 3x fast when the finger print data is bigger than available memory.
HTML  下载PDF全文  查看/发表评论  下载PDF阅读器
 

京公网安备 11040202500064号

主办单位:中国科学院软件研究所 中国计算机学会 京ICP备05046678号-4
编辑部电话:+86-10-62562563 E-mail: jos@iscas.ac.cn
Copyright 中国科学院软件研究所《软件学报》版权所有 All Rights Reserved
本刊全文数据库版权所有,未经许可,不得转载,本刊保留追究法律责任的权利