HDFS 存储和优化技术研究综述
作者:
作者单位:

作者简介:

金国栋(1993-),男,安徽安庆人,学士,CCF学生会员,主要研究领域为数据库,大数据分析系统;卞昊穹(1989-),男,博士,高级工程师,CCF学生会员,主要研究领域为数据库,分布式存储系统;陈跃国(1978-),男,博士,教授,博士生导师,CCF高级会员,主要研究领域为高性能大数据分析系统,知识图谱,语义搜索;杜小勇(1963-),男,博士,教授,博士生导师,CCF会士,主要研究领域为数据库,大数据系统.

通讯作者:

陈跃国,E-mail:chenyueguo@ruc.edu.cn

基金项目:

国家重点研发计划(2018YFB1004401);国家自然科学基金(U1711261,61432006,61732014)


Survey on Storage and Optimization Techniques of HDFS
Author:
Affiliation:

Fund Project:

National Key Research and Development Program of China (2018YFB1004401); National Natural ScienceFoundation of China (U1711261, 61432006, 61732014)

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
    摘要:

    HDFS(Hadoop distributed file system)作为面向数据追加和读取优化的开源分布式文件系统,具备可移植、高容错和可大规模水平扩展的特性.经过10余年的发展,HDFS已经广泛应用于大数据的存储.作为存储海量数据的底层平台,HDFS存储了海量的结构化和非结构化数据,支撑着复杂查询分析、交互式分析、详单查询、Key-Value读写和迭代计算等丰富的应用场景.HDFS的性能问题将影响其上所有大数据系统和应用,因此,对HDFS存储性能的优化至关重要.介绍了HDFS的原理和特性,对已有HDFS的存储及优化技术,从文件逻辑结构、硬件设备和应用负载这3个维度进行了归纳和总结.综述了近年来HDFS存储和优化相关研究.未来,随着HDFS上层应用的日益丰富和底层硬件平台的发展,基于异构平台的数据存储、面向应用负载的自适应存储优化以及结合机器学习的存储优化技术将成为未来研究的主要方向.

    Abstract:

    As an append-only and read optimized open-source distributed file system, HDFS (Hadoop distributed file system) provides portability, high fault-tolerance, and massive horizontal scalability. Over the past decade, HDFS has been widely used for big data storage, and it manages various data, such as text, graph, key-values, etc. Moreover, big data systems based on or compatible with HDFS have been prevalent in many application scenarios such as complex SQL analysis, ad-hoc queries, interactive analysis, key-value storage, and iterative computation. HDFS has been the universal underlying file system to store massive data and support manifold analytical applications. Therefore, it is of great significance to optimizing the storage performance and data access efficiency of HDFS. In this study, the principles and features of HDFS are summarized and a survey on storage and optimization techniques of HDFS is carried out from three dimensions, including logic file structure, hardware, and application scenarios. It is also proposed that storage over heterogeneous hardware, workload-guided adaptive storage optimization, and storage optimization combined with machine learning technologies could be the most appealing research directions in the future.

    参考文献
    相似文献
    引证文献
引用本文

金国栋,卞昊穹,陈跃国,杜小勇. HDFS 存储和优化技术研究综述.软件学报,2020,31(1):137-161

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
历史
  • 收稿日期:2019-01-17
  • 最后修改日期:2019-03-11
  • 录用日期:
  • 在线发布日期: 2019-08-12
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号