新型分布式计算系统中的异构任务调度框架
作者:
作者单位:

作者简介:

刘瑞奇(1996-),女,硕士生,CCF学生会员,主要研究领域为分布式计算;
赵恒泰(1996-),男,博士生,CCF学生会员,主要研究领域为图计算,分布式计算;
李博扬(1992-),男,博士,CCF学生会员,主要研究领域为分布式数据分析,机器学习;
金福生(1977-),男,博士,副教授,CCF高级会员,主要研究领域为大数据,区块链,人工智能.高玉金(1974-),男,博士,讲师,主要研究领域为计算机体系结构,片上网络系统.李荣华(1985-),男,博士,教授,博士生导师,CCF高级会员,主要研究领域为图数据管理与挖掘,图计算系统;
李长升(1985-),男,博士,教授,博士生导师,CCF专业会员,主要研究领域为机器学习,计算机视觉;
王国仁(1966-),男,博士,教授,博士生导师,CCF杰出会员,主要研究领域为不确定数据管理,数据密集型计算,可视媒体数据分析管理,非结构化数据管理,分布式查询处理与优化,生物信息学.

通讯作者:

李博扬,E-mail:liboyang@bit.edu.cn

中图分类号:

基金项目:

国家重点研发计划(2018YFB1004402);国家自然科学基金(U2001211,62072034,61772346);中国博士后科学基金(2021M690397)


Heterogeneous Task Scheduling Framework in Emerging Distributed Computing Systems
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    随着大数据和机器学习的火热发展,面向机器学习的分布式大数据计算引擎随之兴起.这些系统既可以支持批量的分布式学习,也可以支持流式的增量学习和验证,具有低延迟、高性能的特点.然而,当前的一些主流系统采用了随机的任务调度策略,忽略了节点的性能差异,因此容易导致负载不均和性能下降.同时,对于某些任务,如果资源要求不满足,则会导致调度失败.针对这些问题,提出了一种异构任务调度框架,能够保证任务的高效执行和被执行.具体来讲,该框架针对任务调度模块,围绕节点的异构计算资源,提出了概率随机的调度策略resource-Pick_kx和确定的平滑加权轮询算法.Resource-Pick_kx算法根据节点性能计算概率,进行概率随机调度,性能高的节点概率越大,任务调度到此节点的可能性就越高.平滑加权轮询算法在初始时根据节点性能设置权重,调度过程中平滑加权,使任务调度到当下性能最高的节点上.此外,对于资源不满足要求的任务场景,提出了基于容器的纵向扩容机制,自定义任务资源,创建节点加入集群,重新完成任务的调度.通过实验在benchmark和公开数据集上测试了框架的性能,相比于原有策略,该框架性能提升了10%-20%.

    Abstract:

    With the rapid development of big data and machine learning, the distributed big data computing engine for machine learning have emerged. These systems can support both batch distributed learning and incremental learning and verification, with low latency and high performance. However, some of them adopt a random task scheduling strategy, ignoring the performance differences of nodes, which easily lead to uneven load and performance degradation. At the same time, for some tasks, if the resource requirements are not met, the scheduling will fail. In response to these problems, a heterogeneous task scheduling framework is proposed, which can ensure the efficient execution and execution of tasks. Specifically, for the task scheduling module, the proposed framework proposes a probabilistic random scheduling strategy resource-Pick_kx and a definite smooth weighted round-robin algorithm around the heterogeneous computing resources of nodes. The resource-Pick_kx al-gorithm calculates the probability according to the performance of the node, and performs random scheduling with probability. The higher the probability of a node with high performance, the higher the possibility of task scheduling to this node. The smooth weighted round-robin algorithm sets the weights according to the node performance at the beginning, and smoothly weights during the scheduling process, so that the task is scheduled to the node with the highest performance. In addition, for task scenarios where resources do not meet the requirements, a container-based vertical expansion mechanism is proposed to customize task resources, create nodes to join the cluster, and complete task scheduling again. The performance of the framework is tested on benchmarks and public data sets through ex-periments. Compared with the current strategy, the performance of the proposed frame is improved by 10% to 20%.

    参考文献
    相似文献
    引证文献
引用本文

刘瑞奇,李博扬,高玉金,李长升,赵恒泰,金福生,李荣华,王国仁.新型分布式计算系统中的异构任务调度框架.软件学报,2022,33(3):1005-1017

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2021-06-30
  • 最后修改日期:2021-07-31
  • 录用日期:
  • 在线发布日期: 2021-10-21
  • 出版日期: 2022-03-06
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号