SW26010处理器上的并行结构化稀疏三角方程组求解器
作者:
作者单位:

作者简介:

陈道琨(1994-),男,博士生,主要研究领域为异构架构并行算法,稀疏矩阵相关算法设计与优化;杨超(1979-),男,博士,教授,博士生导师,CCF高级会员,主要研究领域为高性能计算,科学与工程计算;刘芳芳(1982-),女,博士,正高级工程师,CCF专业会员,主要研究领域为高性能扩展数学库,稀疏迭代解法器,异构众核并行.

通讯作者:

杨超,E-mail:chao_yang@pku.edu.cn

中图分类号:

TP301

基金项目:

国家重点研发计划(2020YFB0204601,2016YFB0200603)


Parallel Sparse Triangular Solver for Structured Grid Problems on SW26010 Processor
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    稀疏三角线性方程组求解(SpTRSV)在科学与工程计算领域是比较重要的核心计算函数,其中基于结构化网格构造的线性方程组是SpTRSV求解器经常遇到的一类问题.在国产神威×太湖之光超级计算机所配备的SW26010处理器上,SpTRSV求解器通常需要结合该平台的架构特点,通过搭建一定的数据路由体系来满足各工作线程对未知量数据的需求.面向与结构化网格相关的稀疏三角方程组问题,提出一套适用于SW26010处理器的并行求解器.该求解器在任务划分阶段将各线程的数据依赖模式限制在相对可控的范围之内,并在无数据路由的条件下解决线程的通信问题,不仅消除了数据路由带来的额外通信开销,而且适用的问题范围也不再受数据路由规则的制约.经测试,针对多种不同类型的结构化网格问题,提出的求解器框架的平均访存带宽利用率达88.2%,部分问题的访存带宽可达平台峰值带宽的94.5%(24.5 GB/s),整体性能相比现有工作有较为明显的提高.

    Abstract:

    Sparse triangular solver (SpTRSV) is an important computation kernel in scientific computing. The irregular memory access pattern of SpTRSV makes efficient data reuse difficult to achieve. Structured grid problems possess special nonzero patterns. OnSW26010 processor, the major building block of Sunway Taihulight supercomputer, these patterns are often exploited during the task partitioning stage to facilitate on-chip reuse of computed unknowns. Software-based routing is usually employed to implement inter-thread communication. Routing incurs overhead and imposes certain restrictions on nonzero patterns. This study achieves on-chip data reuse without routing. The input problem is partitioned and mapped onto SW26010 such that threads with data dependencies are always connected by the register communication network. This enables direct thread communication and obviates routing. The proposed solver is described and it is tested over a variety of problems. In the experiments, the proposed solver sustains an average memory bandwidth utilization of 88.2% with peak efficiency reaching 94.5% (24.5 GB/s).

    参考文献
    相似文献
    引证文献
引用本文

陈道琨,刘芳芳,杨超. SW26010处理器上的并行结构化稀疏三角方程组求解器.软件学报,2022,33(12):4452-4463

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2019-11-17
  • 最后修改日期:2020-04-09
  • 录用日期:
  • 在线发布日期: 2022-12-03
  • 出版日期: 2022-12-06
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号