面向申威异构架构的并行代码自动生成
作者:
作者单位:

作者简介:

陶小涵(1995-),男,博士生,主要研究领域为先进编译技术;赵捷(1987-),男,博士,讲师,CCF专业会员,主要研究领域为先进编译技术;朱雨(1998-),女,博士生,主要研究领域为先进编译技术;徐金龙(1985-),男,博士,讲师,主要研究领域为先进编译技术;庞建民(1964-),男,博士,教授,博士生导师,CCF高级会员,主要研究领域为先进计算.

通讯作者:

中图分类号:

TP311

基金项目:

国家自然科学基金(61702546)


Parallel Code Generation for Sunway Heterogeneous Architecture
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    异构架构逐渐成为高性能计算领域的主流架构, 但相较于同构多核架构, 其硬件结构及存储层次更为复杂, 程序编写更为困难. 先进的优化编译器可以协助程序开发人员实现更为高效的代码, 降低程序开发复杂度. 多面体编译模型通过抽象分析将程序抽象成空间多面体表示形式, 能够将多种循环变换与硬件映射相结合, 并面向特定体系结构生成相应的代码. 设计实现了一个面向国产申威异构架构的并行代码自动生成系统, 采用“源-源”编译模式, 基于多面体编译模型实现. 系统针对申威异构架构特点将程序计算过程进行硬件部署, 同时实现数据传输与内存空间的自动管理. 实验基于Polybench测试集中线性代数相关用例进行测试. 结果表明, 利用代码自动生成系统生成的异构并行代码能够在申威异构平台上正确运行, 并能够有效发挥申威异构平台的性能, 基于申威异构平台利用64线程加速计算的平均加速比达到了539.16倍.

    Abstract:

    Heterogeneous architectures are dominating the realm of high-performance computing. However, these architectures also complicate the programming issue due to its increasingly complex hardware and memory hierarchy compared to homogeneous architectures. One of the most promising solutions to this issue is making use of optimizing compilers which can help programmers develop high-performance code executable on target machines, thereby simplifying the difficulty of programming. The polyhedral model is widely studied due to its ability to generate effective code and portability to various targets, which is realized by first converting a program into its intermediate representation and then combining the compositions of loop transformations and hardware binding strategies. This paper presents a source-to-source parallel code generator targeting the domestic, heterogeneous architecture of the Sunway machine using the polyhedral model. In particular, the computation is deployed automatedly onto the Sunway architecture and memory management, minimizing the amount of data movements between the management processing element and computing processing elements of the target. The experiments are conducted on 13 linear algebra applications extracted from the Polybench Benchmarks. The experimental results show that the proposed approach can generate effective code executable on the Sunway heterogeneous architecture, providing a mean speedup of 539.16× on 64 threads over the sequential implementation executed on a management processing element.

    参考文献
    相似文献
    引证文献
引用本文

陶小涵,朱雨,庞建民,赵捷,徐金龙.面向申威异构架构的并行代码自动生成.软件学报,2023,34(4):1570-1593

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2021-11-25
  • 最后修改日期:2022-02-02
  • 录用日期:
  • 在线发布日期: 2023-04-04
  • 出版日期: 2023-04-06
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号