面向异构计算机平台的HPL方案
作者:
作者单位:

作者简介:

孙乔(1989-),男,博士,高级工程师,主要研究领域为并行编程模型,并行算法.
马文静(1981-),女,博士,副研究员,CCF专业会员,主要研究领域为高性能计算.
孙家昶(1942-),男,研究员,博士生导师,主要研究领域为科学与工程计算的方法、理论与应用,并行计算.
赵玉文(1987-),女,博士生,助理研究员,CCF专业会员,主要研究领域为高性能计算.

通讯作者:

赵玉文,E-mail:zhaoyuwen@iscas.ac.cn

中图分类号:

TP303

基金项目:

国家重点研发计划(2018YFB0204404);中国科学院战略性先导科技专项(C类)(XDC01030200)


HPL Approach for Heterogeneous Computer Platforms
Author:
Affiliation:

Fund Project:

National Key Research and Development Program of China (2018YFB0204404); Strategic Priority Research Program of the Chinese Academy of Sciences (Category C) (XDC01030200)

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    HPL(high performance Linpack)是一套被广泛用于测评计算机性能的测试程序,几十年来学术界及产业界十分关注对HPL测试程序的定制化优化工作,以充分反应同时代新兴计算机平台的性能.面向当今主流多设备异构计算平台,尝试为HPL的优化工作提供一种解决方案:Hetero-HPL.在Hetero-HPL中,进程与协处理器的对应关系可被改变,因此HPL算法在单节点独立运行情况下可以完全避免进程间数据传输开销.算法各个重要步骤有能力完全利用物理节点的所有资源,如内存容量、CPU核心、协处理器、PCI-e总线等.Hetero-HPL并不引入冗余计算量及通信量,并在任意设备数量下妥善应对锁页内存分配限制,确保多设备负载均衡和设备内高效的大规模同质运算.在实验平台上,Hetero-HPL效率可以达到平台峰值性能的76.5%(其中,dgemm函数效率为84%).进一步的实验结果表明,Hetero-HPL在多节点联机运行情况下也是一种可行的方案.

    Abstract:

    HPL (high performance Linpack) is a widely used benchmark for measuring computer performance. Over the decades, the practice of optimizing and tuning of HPL has constantly drawn great attention in both industrial and academic circle, to evaluate the performance of contemporary cutting-edge computer platforms. For current heterogeneous HPC platforms with multiple accelerating co-processors, an approach of high-performance HPL benchmark, Hetero-HPL, is proposed in this paper. In Hetero-HPL, the mapping between process set and (co-) processor set becomes adjustable, so that the computation within each computing node may avoid inter-process message exchange, and each important procedure of the HPL algorithm may make full use of the hardware resources of the computing node, such as memory, CPU cores, co-processors, and PCI-e bus etc.Without redundant computation and communication, the working set of Hetero-HPL is not restricted by the limit of pinned memory size in a single allocation, and is distributed in a way that the workload is balanced among all the co-processors and massive fine-grained parallelism can be exploited. On one experimental platform with four co-processors, Heter-HPL can reach an efficiency of 76.5% (the efficiency of function dgemm is 84%) in one computing node, and further experiment suggests that Hetero-HPL is also a feasible approach in distributed environment.

    参考文献
    相似文献
    引证文献
引用本文

孙乔,孙家昶,马文静,赵玉文.面向异构计算机平台的HPL方案.软件学报,2021,32(8):2329-2340

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2019-08-22
  • 最后修改日期:2019-12-05
  • 录用日期:
  • 在线发布日期: 2021-08-05
  • 出版日期: 2021-08-06
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号