面向大数据分析作业的启发式云资源供给方法
作者:
作者单位:

作者简介:

吴悦文(1988-),男,湖南衡阳人,助理研究员,主要研究领域为分布式系统,云计算;吴恒(1983-),男,博士,副研究员,CCF专业会员,主要研究领域为分布式系统,云计算;任杰(1993-),男,硕士,主要研究领域为分布式系统,云计算;张文博(1976-),男,博士,研究员,博士生导师,CCF专业会员,主要研究领域为分布式系统,云计算;魏峻(1970-),男,博士,研究员,博士生导师,CCF高级会员,主要研究领域为分布式系统,软件工程;王焘(1982-),男,博士,副研究员,CCF高级会员,主要研究领域为云计算,软件可靠性运行时监测;钟华(1971-),男,博士,研究员,博士生导师,CCF高级会员,主要研究领域为分布式系统,软件工程.

通讯作者:

吴恒,E-mail:wuheng@otcaix.iscas.ac.cn

中图分类号:

TP316

基金项目:

国家重点研发计划(2017YFB1400804);北京市自然科学基金(4182070);蚂蚁金服科研基金(XZ502017000730);中国科学院青年创新促进会人才专项(2018144)


Heuristic Based Resource Provisioning Approach for Big Data Analytics in Cloud Environment
Author:
Affiliation:

Fund Project:

National Key Research and Development Program of China (2017YFB1400804); Beijing Natural Science Foundation (4182070); Ant Financial Research Fund (XZ502017000730); Youth Innovation Promotion Association of Chinese Academy of Sciences Fund (2018144)

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    云计算已成为大数据分析作业的主流运行支撑环境,选择合适的云资源优化其性能面临巨大挑战.当前研究主要考虑大数据分析框架(如Hadoop,Spark等)的多样性,采用机器学习方法进行资源供给,但样本少容易陷入局部最优解.提出了大数据环境下基于负载分类的启发式云资源供给方法RP-CH,基于云资源共享特点,获取其他大数据分析作业的运行时监测和云资源配置信息,建立负载分类与优化云资源配置的启发式规则,并将该规则作用到贝叶斯优化算法的收益函数.基于HiBench,SparkBench测试基准的结果显示:RP-CH相对于已有方法CherryPick、大数据分析作业的性能平均提升了58%,成本平均减少了44%.

    Abstract:

    It is a big challenge to pick up the best cloud configuration for recurring big data analytics jobs running in clouds. Prior efforts may get in a sub-optimal configuration due to a broad spectrum of cloud configurations with a few test runs, such as CherryPick. RP-CH, presented in this paper, is a resource provisioning system that leverages heuristic rules based on classification information to identify the optimal cloud configuration for big data analytics jobs, while the insight is classifying a job by comparing its resource preference and usage information with other jobs. Then, heuristic rules are used to distinguish bad samples from good ones in Bayesian optimization algorithm. The experiments on HiBench and SparkBench in Aliyun ECS show that the performance of job has been improved by 58% in average comparing with CherryPick, meanwhile the resource cost has been reduced by 44% in average.

    参考文献
    相似文献
    引证文献
引用本文

吴悦文,吴恒,任杰,张文博,魏峻,王焘,钟华.面向大数据分析作业的启发式云资源供给方法.软件学报,2020,31(6):1860-1874

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2018-06-06
  • 最后修改日期:2018-09-30
  • 录用日期:
  • 在线发布日期: 2020-06-04
  • 出版日期: 2020-06-06
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号