国产异构系统上HPL的优化与分析
作者:
作者单位:

作者简介:

水超洋(1994-),男,博士生,主要研究领域为稠密矩阵乘法优化,稀疏张量优化.
王银山(1988-),男,博士,副研究员,CCF专业会员,主要研究领域为数值模拟,大规模并行计算,稀疏矩阵计算优化.
于献智(1994-),男,硕士,主要研究领域为异构高性能计算.
谭光明(1980-),男,博士,研究员,博士生导师,CCF高级会员,主要研究领域为并行算法设计与分析,并行编程和优化,计算机体系结构,生物信息学,大数据.

通讯作者:

谭光明,E-mail:tgm@ict.ac.cn

中图分类号:

TP303

基金项目:

国家重点研发计划(2018YFB0204400,2016YFB0201305,2016YFB0200803,2016YFB0200300);中国科学院战略性先导科技专项(C类)(XDC01030000);国家自然科学基金(61972377,61432018,61702483);中国科学院前沿科学重点研究计划(QYZDJ-SSW-JSC035)


Optimization and Analysis of HPL on Domestic Heterogeneous System
Author:
Affiliation:

Fund Project:

National Key Research and Development Program of China (2018YFB0204400, 2016YFB0201305, 2016YFB020 0803, 2016YFB0200300); Strategic Priority Research Program of the Chinese Academy of Sciences (Category C) (XDC01030000); National Natural Science Foundation of China (61972377, 61432018, 61702483); Key Research Program of Frontier Sciences of the Chinese Academy of Sciences (QYZDJ-SSW-JSC035)

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    随着异构系统成为建造超级计算机的重要选择,如何让CPU与加速器协调工作以充分发挥异构系统的计算性能具有重要意义.HPL是高性能计算领域最重要的基准测试程序,传统面向纯CPU系统的HPL算法通过加速器加速矩阵乘法的做法已经无法取得很好的性能.针对这一问题,提出了基于国产处理器-国产加速器异构系统的HPL性能模型和多线程细粒度流水HPL算法.完成了一个轻量级跨平台异构加速框架HPCX,以实现跨平台的HPL算法.该性能模型能够准确地预测类似异构系统的HPL性能.该HPL算法在NVIDIA GPU平台上性能超过了NVIDIA官方闭源nvhpl程序9%.在国产处理器-国产加速器平台512个节点的规模上,优化的HPL算法实现了2.3 PFLOPS实测峰值性能和71.1%的浮点效率.

    Abstract:

    As heterogeneous system becomes one of the most important choices to build super computers, how to orchestrate CPU and accelerator to leverage the great computability of heterogeneous systems is of great significance. HPL is the most important benchmark in HPC field, traditional HPL algorithm targeting at CPU-only systems cannot achieve high performance by only offloading matrix multiplication workload to accelerators. To solve this problem, this work proposes a HPL performance model and a multithread fine-grained pipelining algorithm for domestic-processor-domestic-accelerator heterogeneous system. Meanwhile, a light weight cross-platform heterogeneous framework is implemented to carry out a cross-platform HPL algorithm. The proposed performance model predicts HPL performance accurately on similar heterogeneous systems. On NVIDIA platform, the proposed HPL algorithm outperforms the NVIDIA proprietary counterparts by 9%. On domestic-processor-domestic-accelerator platform, the finally optimized Linpack program achieves 2.3 PFLOPS on 512 nodes, with floating-point efficiency 71.1%.

    参考文献
    相似文献
    引证文献
引用本文

水超洋,于献智,王银山,谭光明.国产异构系统上HPL的优化与分析.软件学报,2021,32(8):2319-2328

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2019-08-16
  • 最后修改日期:2019-12-05
  • 录用日期:
  • 在线发布日期: 2021-08-05
  • 出版日期: 2021-08-06
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号