复杂异构计算系统HPL的优化
CSTR:
作者:
作者单位:

作者简介:

黎雷生(1981-),男,博士,副研究员,主要研究领域为并行计算.
赵慧(1984-),女,博士,助理研究员,主要研究领域为高性能计算.
杨文浩(1993-),男,博士生,助理工程师,主要研究领域为高性能计算,数值计算方法.
赵海涛(1981-),男,博士,副研究员,CCF专业会员,主要研究领域为高性能工程,科学计算.
马文静(1981-),女,博士,副研究员,CCF专业会员,主要研究领域为高性能计算.
李会元(1973-),男,博士,研究员,博士生导师,主要研究领域为高性能计算,计算数学.
张娅(1984-),女,博士,副研究员,主要研究领域为计算数学,并行计算.
孙家昶(1942-),男,研究员,博士生导师,主要研究领域为科学与工程计算的方法、理论与应用,并行计算.

通讯作者:

黎雷生,E-mail:leisheng@iscas.ac.cn

中图分类号:

TP303

基金项目:

中国科学院战略性先导科技专项(C类)(XDC01030200);国家重点研发计划(2018YFB0204404,2016YFB0200601);国家自然科学基金(11871455,11971016)


Optimization of HPL on Complex Heterogeneous Computing System
Author:
Affiliation:

Fund Project:

Strategic Priority Research Program of the Chinese Academy of Sciences (Category C) (XDC01030200); National Key Research and Development Program of China (2018YFB0204404, 2016YFB0200601); National Natural Science Foundation of China (11871455, 11971016)

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    当今世界的主流超级计算机越来越多地使用带有加速器的异构系统.随着加速器的浮点性能不断提高,超级计算机内计算节点的CPU、内存、总线、网络以及系统架构都要与之相适应.HPL(high performance Linpack)是高性能计算机评测的传统基准测试程序,复杂异构系统给HPL评测带来很多机遇与挑战.针对带有GPU的异构超级计算机系统,提出一套新的CPU与加速器计算任务分配方式,提出平衡点理论指导HPL性能优化.为了优化HPL程序,提出了使用CPU与加速器协同工作的look-ahead算法和行交换连续流水算法,实现了加速器、CPU、网络等部件的高度并行.此外,为带有加速器的系统设计了新的panel分解和行交换的实现方法,提高了加速器的利用率.在每个节点带有4个GPU的系统上,单节点HPL效率达到了79.51%.

    Abstract:

    Nowadays, the mainstream supercomputers in the world adopt heterogeneous systems with accelerators more and more. The increase of float point computation performance of the accelerators requires other components to match its speed, including CPU, memory, bus, and network. High performance Linpack (HPL) is the traditional benchmark for high performance computers. Complex heterogeneous systems have brought both opportunities and challenges to the benchmarking with HPL. Therefore, for heterogeneous supercomputers, a new task partitioning scheme between the CPU and the accelerators is proposed, using the balance point theory to guide the optimization of HPL. For optimizing HPL, a look-ahead algorithm is proposed to coordinate the collaboration of CPU and the accelerators, as well as a contiguous row-swap algorithm, enabling the parallelism among CPU, accelerators, and network. Besides, new panel factorization and row-swap implementations have been designed for the system with accelerators, improving the effectiveness and efficiency of the usage of accelerators. With the configuration of 4 GPUs on each computing node, HPL efficiency of 79.51% on a single node.

    参考文献
    相似文献
    引证文献
引用本文

黎雷生,杨文浩,马文静,张娅,赵慧,赵海涛,李会元,孙家昶.复杂异构计算系统HPL的优化.软件学报,2021,32(8):2307-2318

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2019-08-20
  • 最后修改日期:2019-12-05
  • 录用日期:
  • 在线发布日期: 2021-08-05
  • 出版日期: 2021-08-06
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号