面向大数据处理框架的JVM优化技术综述
作者:
作者单位:

作者简介:

汪钇丞(1998-), 男, 博士生, 主要研究领域为大数据系统, 内存管理.;曾鸿斌(1998-), 男, 硕士生, 主要研究领域为大数据系统, 内存管理.;许利杰(1987-), 男, 博士, 副研究员, CCF专业会员, 主要研究领域为大数据系统, 分布式系统, 软件工程.;王伟(1982-), 男, 研究员, 博士生导师, CCF高级会员, 主要研究领域为分布式系统软件.;魏峻(1970-), 男, 研究员, 博士生导师, CCF高级会员, 主要研究领域为软件工程, 分布式计算.;黄涛(1965-), 男, 博士, 研究员, 博士生导师, CCF高级会员, 主要研究领域为网络分布式计算, 软件工程.

通讯作者:

许利杰,E-mail:xulijie@otcaix.iscas.ac.cn;王伟,E-mail:wangwei@otcaix.iscas.ac.cn

中图分类号:

基金项目:

国家重点研发计划(2017YFB1001804); 国家自然科学基金(61802377); 中国科学院青年创新促进会


Survey on JVM Optimization for Big Data Processing Frameworks
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    当前, 以Hadoop、Spark为代表的大数据处理框架, 已经在学术界和工业界被广泛应用于大规模数据的处理和分析. 这些大数据处理框架采用分布式架构, 使用Java、Scala等面向对象语言编写, 在集群节点上以Java虚拟机(JVM)为运行时环境执行计算任务, 因此依赖JVM的自动内存管理机制来分配和回收数据对象. 然而, 当前的JVM并不是针对大数据处理框架的计算特征设计的, 在实际运行大数据应用时经常出现垃圾回收(GC)时间长、数据对象序列化和反序列化开销大等问题. 在一些大数据场景下, JVM的垃圾回收耗时甚至超过应用整体运行时间的50%, 已经成为大数据处理框架的性能瓶颈和优化热点. 对近年来相关领域的研究成果进行了系统性综述: (1)总结了大数据应用在JVM中运行时性能下降的原因; (2)总结了现有面向大数据处理框架的JVM优化技术, 对相关优化技术进行了层次划分, 并分析比较了各种方法的优化效果、适用范围、使用负担等优缺点; (3)探讨了JVM未来的优化方向, 有助于进一步提升大数据处理框架的性能.

    Abstract:

    Nowadays, the big data processing frameworks such as Hadoop and Spark have been widely used for data processing and analysis in industry and academia. These big data processing frameworks adopt the distributed architecture, generally developed in object-oriented languages like Java and Scala. These frameworks take Java virtual machine (JVM) as the runtime environment on cluster nodes to execute computing tasks, i.e., relying on JVM’s automatic memory management mechanism to allocate and reclaim data objects. However, current JVMs are not designed for the big data processing frameworks, leading to many problems such as long garbage collection (GC) time and high cost of data serialization and deserialization. As reported by users and researchers, GC time can take even more than 50% of the overall application execution time in some cases. Therefore, JVM memory management problem has become the performance bottleneck of the big data processing frameworks. This study systematically reviews the recent JVM optimization research work for big data processing frameworks. The contributions include the following three outcomes. First, the root causes of the performance degradation of big data applications when executed in JVM are summarized. Second, the existing JVM optimization techniques are summarized for big data processing frameworks. These methods are also classified into categories, the advantages and disadvantages of each are compared and analyzed, including the method’s optimization effects, application scopes, and burdens on users. Finally, some future JVM optimization directions are proposed, which will help the performance improvement of big data processing frameworks.

    参考文献
    相似文献
    引证文献
引用本文

汪钇丞,曾鸿斌,许利杰,王伟,魏峻,黄涛.面向大数据处理框架的JVM优化技术综述.软件学报,2023,34(1):463-488

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2021-01-18
  • 最后修改日期:2021-04-29
  • 录用日期:
  • 在线发布日期: 2021-11-24
  • 出版日期:
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号