RJXB

软件学报

Journal of Software

1000-9825

软件学报编辑部

中国北京

rjxb-34-4-1977

10.13328/j.cnki.jos.006732

TP301

计算机体系结构

Computer Architecture

ChattyGraph: 面向异构多协处理器的高可扩展图计算系统

ChattyGraph: Highly Scalable Graph Computing System for Heterogeneous Multi Accelerators

蒋

筱斌

JIANG

Xiao-Bin

蒋筱斌(1996-), 男, 硕士, 主要研究领域为操作系统, 云原生, 图计算

1 2

熊

轶翔

XIONG

Yi-Xiang

熊轶翔(1996-), 男, 硕士, 主要研究领域为操作系统, 云原生, 高性能计算

1 2

张

珩

ZHANG

Heng

张珩(1990-), 男, 博士, CCF专业会员, 主要研究领域为分布式与并行计算, 大数据处理, 操作系统

zhangheng17@iscas.ac.cn 1 *

武

延军

Yan-Jun

武延军(1979-), 男, 博士, 研究员, 博士生导师, CCF杰出会员, 主要研究领域为操作系统

赵

琛

ZHAO

Chen

赵琛(1967-), 男, 博士, 研究员, 博士生导师, CCF高级会员, 主要研究领域为编程语言, 编译技术

中国科学院软件研究所, 北京 100190

Institute of Software, Chinese Academy of Sciences, Beijing 100190, China

中国科学院大学, 北京 100049

University of Chinese Academy of Sciences, Beijing 100049, China

张珩, E-mail: zhangheng17@iscas.ac.cn

4 2023

22 7 2022

34 4 1977 1996 12 9 2021 20 4 2022 23 6 2022

2023

现阶段, 随着数据规模扩大化和结构多样化的趋势日益凸现, 如何利用现代链路内链的异构多协处理器为大规模数据处理提供实时、可靠的并行运行时环境, 已经成为高性能以及数据库领域的研究热点. 利用多协处理器(GPU)设备的现代服务器(multi-GPU server)硬件架构环境, 已经成为分析大规模、非规则性图数据的首选高性能平台. 现有研究工作基于Multi-GPU服务器架构设计的图计算系统和算法(如广度优先遍历和最短路径算法), 整体性能已显著优于多核CPU计算环境. 然而, 这类图计算系统中, 多GPU协处理器间的图分块数据传输性能受限于PCI-E总线带宽和局部延迟, 导致通过增加GPU设备数量无法达到整体系统性能的类线性增长趋势, 甚至会出现严重的时延抖动, 进而已无法满足大规模图并行计算系统的高可扩展性要求. 经过一系列基准实验验证发现, 现有系统存在如下两类缺陷: (1) 现代GPU设备间数据通路的硬件架构发展日益更新(如NVLink-V1, NVLink-V2), 其链路带宽和延迟得到大幅改进, 然而现有系统受限于PCI-E总线进行数据分块通信, 无法充分利用现代GPU链路资源(包括链路拓扑、连通性和路由); (2) 在应对不规则图数据集时, 这类系统常采用过于单一的设备间数据组织和移动策略, 带来大量不必要GPU设备间经PCI-E总线的数据同步开销, 导致本地性计算同步等待时延开销过大.因此, 充分地利用各类现代Multi-GPU服务器通信链路架构来设计可扩展性强的图数据高性能计算系统亟待解决.为了达到Multi-GPU下图计算系统的高可扩展性, 提出一种基于混合感知的细粒度通信来增强Multi-GPU图计算系统的可伸缩性, 即采用架构链路预感知技术对图结构化数据采用模块化数据链路和通信策略, 为大规模图数据(结构型数据、应用型数据)最优化选择数据交换方法. 综合上述优化策略, 提出并设计了一种面向Multi-GPU图并行计算系统ChattyGraph. 通过对GPU图数据缓冲区优化, 基于OPENMP与NCCL优化多核GPU协同计算, ChattyGraph能在Multi-GPU HPC平台上自适应、高效地支持各类图并行计算应用和算法. 在8-GPU NVIDIA DGX服务器上, 对各种真实世界图数据的若干实验评估表明: ChattyGraph显著实现了图计算效率和可扩展性的提升, 并优于其他最先进的竞争对手性能, 计算效率平均提升了1.2×-1.5×, 加速比平均提升了2×-3×, 包括WS-VR和Groute.

Recently, with the increasing trend of data scale expansion and structure diversification, how to use the heterogeneous multi accelerators in modern link to provide a real-time and reliable parallel runtime environment for large-scale data processing has become a research hotspot in the field of high performance and database. Modern servers equipped with multi accelerators (GPU) has become the preferred high-performance platform for analyzing large-scale and irregular graph data. The overall performance of existing research designing graph computing systems and algorithms based on multi-GPU server architecture (such as breadth first traversal and shortest path algorithm) has been significantly better than that of multi-core CPU computing environment. However, the data transmission performance between multi-GPU of existing graph computing system is limited by PCI-E bandwidth and local delay, leading to being unable to achieve a linear growth trend of performance by increasing the number of GPU devices, and even serious delay jitter which cannot satisfy the high scalability requirements of large-scale graph parallel computing systems. After a series of benchmark experiments, it is found that the existing system has the following two types of defects. (1) The hardware architecture of the data link between modern GPU devices is rapidly updated (such as NVLink-V1 and NVLink-V2), and its link bandwidth and delay have been greatly improved. However, the existing systems are still limited by PCI-E for data communication, and cannot make full use of modern GPU link resources (including link topology, connectivity, and routing); (2) When dealing with irregular graph data, such systems often adopt single data movement strategy between devices, bringing a lot of unnecessary data synchronization overhead between GPU devices via PCI-E bus, resulting in excessive time-wait overhead of local computing. Therefore, it is urgent to make full use of various communication links between modern multi-GPU to design a highly scalable graph computing system. In order to achieve the high scalability of the multi-GPU graph computing system, a fine-grained communication based on hybrid perception is proposed to enhance the scalability of the multi-GPU graph computing system. It pre-awares the architecture link, uses the modular data link and communication strategy for different graph structured data, and finally selects the optimal data exchange method for large-scale graph data (structural data and application data). Based on above optimization strategies, this study proposes and designs a graph oriented parallel computing system via multi-GPU named ChattyGraph. By optimizing data buffer and multi-GPU collaborative computing with OpenMP and NCCL, ChattyGraph can adaptively and efficiently support various graph parallel computing applications and algorithms on multi-GPU HPC platform. Several experiments of various real-world graph data on 8-GPU NVIDIA DGX server show that ChattyGraph significantly improves graph computing efficiency and scalability, and outperforms other advanced competitors. The average computing efficiency is increased by 1.2×-1.5× and the average acceleration ratio is increased by 2×-3×, including WS-VR and Groute.

大规模图计算多协处理器总线通信

large scale graph computing multi coprocessor bus communication

国家自然科学基金

62002350

国家自然科学基金(62002350)

随着硬件不断发展的趋势, 搭载多块通用图形处理单元(general graphic procssor units, GPU)的服务器已成为现代高性能计算(high performance computing, HPC)的主流运算平台^[1−4]. 单块GPU处理单元提供了万级以上线程数的高并行计算能力和高于100GB/s访存带宽, 大幅提高了高通量工作负载的性能. 例如: NVIDIA DGX工作站包含8块NVIDIA V100 GPU卡, 单GPU提供了多达5 120流处理器(SMX)、32 GB DDR5全局访存. 随着智能产业和物联网的蓬勃发展, 各类事物间的关联数据规模、复杂性都呈现井喷式增长^{[5, 6]}. 这类复杂网络通常以图结构(点, 边)形式的数据集进行表征, 然而, 多核CPU和搭载单块GPU协处理器的服务器并行计算平台面对规模不断扩大的复杂图数据, 这类平台的存储和计算能力已经远无法满足大规模图数据的处理需求. 面向搭载多块设备间紧密互联GPU的服务器环境, 如何架构和实现大规模图数据并行处理应用和算法, 越来越为研究者关注; 同时, 如何应用Multi-GPU服务器为解决各类新兴领域的大规模图数据应用(如社交网络分析^[6]、异常检测^[7]、推荐系统和网络拓扑分析^[8])提供高质量、低时延的服务, 也开始得到广泛关注.

在当前GPU高性能图计算系统研究工作中, Multi-GPU图数据并行系统设计逻辑围绕以顶点(vertex)为中心的思想进行图数据切分、图分块迭代计算和整体同步^{[1−4, 9−12]}. 具体地, 主处理模块(CPU端)通过子图切块策略, 将原始图数据均衡划分为分区子图, 以本地性并行计算的方式加载各子图至GPU设备, 并以点为中心同步不同设备计算完成的子图内更新顶点值(updated vertex value); 进而经过若干迭代轮加载计算和整体同步、主控逻辑判断后, 直到全局达到特定收敛条件^[13−16]. 通常情况下, 基于以顶点为中心并行模型的GPU并行处理有两种设备间任务调度模型.

1) 同步模型(synchronization model): 遵循整体同步并行计算模型, 即在每个迭代计算轮加载和处理本地子图分块之后, 所有设备之间均需全局通信同步^{[12, 17−19]};

2) 异步模型(asynchronization model): 基于流水线工作列表(worklist)的任务队列实现设备间计算和异步通信, 这使得自定义代码中不需要制定显式同步条件, 只设置细粒度(非批量)同步点来更新本地子图数据^{[1, 17, 18]}.

然而, 经过调研和验证, 现有GPU服务器图并行计算系统在扩展到Multi-GPU服务器环境时, 其可扩展性和性能仍存在问题和挑战^{[1, 3, 6, 20]}: 首先, 考虑到Multi-GPU服务器搭载带宽不同和空间各异的层级内存, 包括主存、GPU设备的共享内存和全局内存, 而各设备间的数据通过各种不同总线链路形式(PCI-E, NVLink-V1, NVLink-V2)进行相互通信, 这类体系结构上的异构性, 为Multi-GPU平台大规模图数据计算系统的扩展性和性能带来设计挑战; 其次, 在应对稀疏和不规则图数据时, 各子图分区的同步内核、计算内核之间均具有内在结果依赖性. 现有的GPU图计算系统通过两种典型的总线和GPU设备间互联通道(即PCI-E和NVLink)来优化GPU服务器间数据通信链路. 从现有系统来看, GPU间通信与CPU-GPU多采用以共享PCI-E总线带宽方式来进行数据交换, 然而, PCI-E总线的带宽和时延局限性限制了整体Multi-GPU计算系统的可扩展性, 例如: PCI-E的带宽约为2.5GB/s, 延迟达到0.7ms. 近年来, 随着NVLink、对等(P2P)通信和基于环的通信技术的发展, 各类GPU服务器内设备间的数据交换性能得到了极大提升. 经过调研, 目前最先进的Multi-GPU设备间的数据交换方式主要包含如下3种通信库实现: 1) 显式数据交换; 2) 统一虚拟地址(unified virtual address, UVA); 3) NCCL(NVIDIA集合通信库). 这3类通信方式都在一定程度上提升了设备间数据交换性能, 为面向Multi-GPU高性能服务器进行图并行计算系统设计提供了扩展性和性能上更为弹性的选择^{[1, 11, 14, 19, 21]}.

进一步, 在NVIDIA DGX服务器上, 对当前最先进的GPU图并行计算系统WSVR^[12]和Groute^[1]进行广度优先遍历(BFS)和单源最短路径(SSSP)基准测试, 本文对其性能评估发现, 这类系统在多GPU设备上的可扩展性仍存在缺陷. 图 1统计了在扩展到多块GPU设备时, WSVR和Groute的性能加速比情况(SSSP和BFS基准测试性能表明, 两个系统的可扩展性仍存在缺陷). 这两类系统仍无法可以达到类线性增长趋势, 甚至在扩展到4块GPU以上时, 计算性能会有大幅下降. 进而, 本文对WSVR和Groute的多GPU设备间数据通信策略分析发现: 这类系统在设备间协调策略上尚存在缺陷, 无法优化利用多块GPU设备进行高效协同计算. 其主要原因包括:

Groute和WS-VR的扩展性实验

1) 仍依赖于主处理器总线PCI-E通信模型. 这类系统忽略了利用现代GPU设备间链路和机制进行协同优化, 包括NVLink技术和集合通信模型等;

2) 缺乏有效的策略以应对各类不同数据粒度间的非规则性图数据集的数据交换, 从而导致了大量的设备间同步开销, 使这类系统难以权衡GPU设备本地性计算和设备间远程通信的开销平衡.

本文对Multi-GPU图数据计算系统(WSVR, Groute)进行了深度并行机理性分析, 深入研究了P2P和UVA两种通信模式(见第1.2节). 本文研究发现: 对于不同大小的图计算数据集, 并非所有情况均适用于选择同一类模式. 因此, 构建一套自适应的通信方法会有效提升通信和资源利用率. 该策略不仅能为不同的图应用基准提供高效的并行计算性能, 而且会在图算法的不同执行阶段设置最优化的缓存通信性能. 例如: GPU的UVA(unified virtual addressing space)模式提供了易于实现的设备访存读写方式, 更适用于小粒度数据集读写; 而NCCL方法可以将设备内的消息细粒度化传输, 降低对等通信开销, 更适用于大粒度的数据移动算法(例如PageRank). 此外, NCCL方法在遍历算法中具有良好的通信性能, 但同时也会在多轮迭代过程中引入大量初始化操作开销, 反而会影响图迭代算法的性能. 基于这些观测结果, 本文设计了一种高效、可扩展的大规模图数据并行计算方法. 重点研究了最优通信模式选择.

本文的主要贡献总结如下:

(1) 本文量化了NVLink, PCI-E等通信链路技术, 在不同的图基准、数据集、执行阶段和GPU规模上, 对当前先进Multi-GPU服务器的数据链路特性进行了综合分析;

(2) 基于硬件通信链路特性, 对比分析了3类通信模式的通信效率, 设计并实现了一种基于混合感知的细粒度通信模型, 优化了多GPU间图数据通信效率, 针对不同的图数据结构采用协同通信模式. 结果表明, 混合图数据感知的通信模式降低了GPU间的通信时间1.2×−1.5×;

(3) 实现了新的高可扩展Multi-GPU图并行计算系统ChattyGraph, 优化了多GPU设备内图数据缓冲区以及实现了基于OPENMP与NCCL的多核CPU和多GPU设备协同计算, 并提出了3类用户友好的API接口, 实现了各类标准图并行计算算法(广度优先遍历、PageRank、最短路径遍历等);

(4) 实验结果表明: ChattyGraph与GPU图数据并行计算系统(WS-VR, Groute)相比, 达到了1.5×−3×的性能提升; 同时, 在8GPU下, 平均加速比普遍能达到3×−4×左右, 比WS-VR和Groute性能加速比提升2倍. 另外, 实验也从多角度验证了所提方案的性能优势, 在图数据量和GPU数量不断扩大的情况下, ChattyGraph的图数据处理效率提升越发明显.

本文第1节介绍GPU高性能图计算系统的相关工作背景, 并给出现代GPU设备间的通信链路技术和数据移动策略. 第2节给出Multi-GPU下高扩展图并行计算系统的架构动机, 并分析高可扩展性的图计算瓶颈和应对策略. 进一步地, 第3节详细介绍高扩展图计算系统ChattyGraph新的细粒度通信策略. 第4节具体描述高扩展图计算系统ChattyGraph的实现细节, 包括GPU设备内图数据表征及缓冲区优化、在多核CPU和多块GPU设备间图数据协同计算优化. 第5节描述具体的实验平台、实验设计以及实验结果和分析. 最后是本文的总结和未来展望.

1 背景

利用GPU协处理器的高并行计算能力构建高性能、可扩展性图计算应用和算法优化的工作一直是高性能、数据库以及系统领域的研究热点. 随着图数据量的规模不断增大、应用需求的日益增多, 各类基于GPU的图计算系统层出不穷, 例如, Medusa^[11], Gunrock^[19], WSVR^[12], Groute^[1]等. 这类面向GPU服务器的图并行计算系统常围绕以顶点为中心的并行架构设计思想, 将各类图数据应用建模为以顶点为中心的并行计算范式. 为了应对更大规模的图数据应用需求, 研究工作逐渐转向利用搭载多块GPU处理器的Multi-GPU服务器平台. 这类研究通过对子图分块后持续加载数据至各协处理器设备中进行计算, 实现了充分利用多个GPU的平台上协同处理大规模图数据的可行解决方案^{[1, 3, 20]}.

在本节中, 本文首先简要讨论Multi-GPU图数据并行处理系统的相关研究工作; 然后, 从软件系统的角度深入分析当前3种现代GPU设备间数据交换链路架构和通信方式; 最后, 本文具体分析了当前Multi-GPU图数据并行计算系统的若干缺陷.

1.1 面向Multi-GPU服务器的图数据并行计算系统

分布式或共享内存的高性能图数据计算研究一直是高性能、数据库以及系统领域的研究热点, 并且催生了诸多面向GPU处理器的图计算系统^[10−12]和高性能算法设计^{[9, 14, 22−24]}. 利用GPU的大规模并发线程不仅可以提高常规数据处理的性能, 例如张量计算、矩阵分解等, 而且大幅提升了大规模数据吞吐, 为各处理单元(如thread, warp, block)的数据加载和读写提供了高带宽低时延的并发计算环境.

随着数据规模的不断增加, 近年来, 在搭载多块互通互联GPU设备的Multi-GPU服务器上开展高性能大规模图数据处理已开始受到各类研究的关注^{[6, 20]}. 研究工作主要集中于利用多块GPU设备来实现更大规模图数据处理. 然而, 当前Multi-GPU图计算系统通过PCI-E互联总线统一扩展策略来实现图数据块间的通信和同步, 其整体的性价比低, 即加入更多GPU设备所带来的性能提升并不明显, 甚至会显著下降. 本文对当前Multi-GPU图数据计算系统的并行范式进行分析, 这类处理技术大多采用随机图划分策略和单一总线通信策略来实现可伸缩性.

具体地, 以下分别介绍两类当前最先进的Multi-GPU图数据并行计算系统架构, WSVR和Groute.

WSVR^[12]: 如图 2(a)所示, WSVR采用点切分方案, 将切分完的边集均匀地分配给多台GPU设备. 通信过程采用顶点细化技术来指定边界顶点, 以最小化数据量通过PCI-E总线实现GPU之间的通信. WSVR的并行计算过程利用离线(offline)和在线(online)两个阶段计算各个设备间需要同步更新的工作负载: 1) 离线阶段在预处理过程中识别并标记边界顶点; 2) 在线阶段利用并行二进制前缀来动态地从边界顶点中细化更新的顶点, 即, 在通信中只传输在上一轮计算中更新且其他设备需要的顶点. 在多个GPU设备数据交换阶段, WSVR采用主机端缓存策略, 通过在CPU主存端开辟一块统一虚拟内存(UVM)空间, 各GPU设备访存区与该UVM缓存空间交互同步, 实现上传和下载更新数据的操作, 最终同步各GPU设备间更新的数据. WSVR采用的上述数据交换策略虽然减少了冗余边界的同步开销, 但使用UVM作为主机端缓存的策略, 导致各GPU设备间的数据交换均以PCI-E总线链路为交换通道, 尤其在多块GPU同时数据同步时会带来PCI-E总线拥塞, 产生巨大的同步开销;

两种先进的多GPU图数据处理系统

Groute^[1]: 如图 2(b)所示, Groute研究了Multi-GPU服务器下图数据处理的异步执行模型, 提出了一种多GPU设备间的计算任务调度和通信策略. 通过利用GPU间的数据链路, Groute构建环形拓扑来改进GPU间的数据通信性能, 采用P2P(peer-to-peer)和路由(route)选择相结合的方案, 即: 在节点内GPU间采用P2P直接通信; 节点间由主机端路由选择策略选择合适的路径进行数据交换. 尽管Groute通过屏蔽全局同步屏障来优化了设备间异步数据交换, 然而Groute的异步编程模型需要用户自定义图计算应用数据的路由Route、链路Link等操作, 系统的局限性使其无法适配更多常见图数据应用.

1.2 现代GPU间通信方式

近年来, GPU通常被作为协处理器来弥补CPU在大规模数据并行计算上的缺陷, 而CPU处理器主要负责数据的预处理和后处理、内存分配、进程管理以及调度和管理GPU核操作和GPU间数据通信. CPU与GPU之间通过前端总线(FSB, 例如QPI和HyperTransport)相互连接. 前端总线与北桥连接, 并由北桥通过PCI-E, NVLink-V1和NVLink-V2链路连接到GPU显卡. 图 3展示了本文实验提供的GPU服务器平台, 搭载8块互联互通NVIDIA V100 GPU卡的NVIDIA DGX服务器, 每个GPU包含5 120个SMX、32GB全局内存, 并通过PCI-E, NVLink-V1和NVLink-V2技术互联互通连接. 通过量化GPU间链路的性能特性, 表 1给出了这3种通信链路在多个GPU之间跃点时的通信带宽(MB/s)和延迟(ms), 证实了PCI-E总线在通信性能上的瓶颈.

具有8个NVIDIA V100 GPU的NVIDIA DGX服务器的内部链接拓扑

GPU间链路互联特性

设备链路	带宽(MB/s)	0-hop (ms)	1-hop (ms)	2-hop (ms)
PCI-E	2 872.111	0.348 176	0.686 045	0.732 432
NVLink-V1	17 196.9	0.058 15	0.117 411	0.176 563
NVLink-V2	27 228.67	0.036 726	0.078 07	0.113 05

在本节中, 下面以PCI-E, NVLink-V1和NVLink-V2为例, 重点讨论GPU设备间数据通信的互联技术.

PCI-E: 高速串行计算机扩展总线标准, 即外围组件互联快速总线. 在高性能GPU服务器内, 设备间的数据链路通过PCI-E总线构架. 一个或多个GPU设备通过PCI-E总线连接到CPU主机端. 与CPU和DRAM之间数据带宽速度相比, 由于大量待处理数据需要从源设备(磁盘或源GPU设备访存)加载至DRAM之后, 再经PCI-E加载至目的GPU访存空间, 局限的PCI-E总线带宽限制了多块GPU协处理器和CPU之间的数据传输效率. 因此, 局限的PCI-E总线带宽和延迟使其成为GPU高性能算法设计的主要性能瓶颈^[25−28], 无论是从主机内存加载到GPU的数据通信, 还是启用P2P通信时GPU设备间的数据移动. 从表 1可见: 相对比NVIDIA NVLink技术, PCI-E总线的数据通信带宽明显偏低, 并且在n-hop通信延迟上开销远高于其他两类(平均7×, 9.5×). 此外, PCI-E由于数据一致性必须在软件层面进行统一管理, 导致了在执行CUDA接口之后需要刷新缓存, 同时, 其系统级别的原子性无法保障;

NVLink-V1: 基于高速信号互联(NVHS)总线^[20], 其控制器由3层组成, 即物理层、数据链路层以及交换层, 提供比PCI-更快的设备间对等通信, 可以同时支持CPU-GPU和GPU-GPU之间的点到点互联通信. NVLink通过插槽连接, 作为双向链路, 每个NVLink都包含上行链路和下行链路两个子链路.此外, NVLink和PCI-E的效率特性均取决于数据包的大小(如后文图 5(a)所示). 从表 1可见: 通过NVLink-V1连接的多块GPU在发生数据跨设备点通信时, NVLink-V1的通信带宽和延迟明显优于PCI-E总线, 数据传输带宽提升达到6.7×, 并且通信延迟降低7×;

UVA和NCCL在传输不同大小数据时的通信带宽对比

不同大小的数据包在各链路技术之间通信性能的情况

NVLink-V2: 基于NVLink-V1优化的桥接器. 相对比NVLink-V1, NVLink-V2使用硬件地址转换, 提供了Unified Memory机制支持GPU设备直接访问CPU地址, 大幅提高了设备间的链路带宽, 并为NVIDIA Tesla GPU设备提供了更多的链路插槽^[20]. 当添加更多的NVLink-V2链路连接时, 可以实现更高的设备间通信带宽. 与NVLink-V1相比, NVLink-V2将每条链路的带宽优化了约50%, 如表 1所示. 此外, 本文通过不同数据集大小的通信方式, 进一步评估了NVLink-V1和NVLink-V2的通信带宽对比.

图 3(a)以NVIDIA DGX高性能服务器为例, 具体地展示了现代Multi-GPU服务器内各GPU之间的互通互联情况. 在NVIDIA DGX的拓扑结构中, 每个GPU设备占据立方体的一个黑点, 16个边是NVLink连接, 由8个NVLink-V1和8个NVLink-V2组成, 剩余两点之间的连接由PCI-E组成. 数据通过PCI-E通信时, 需要跨越CPU内存端进行两段式通信(显存-主存-显存), 因此会导致低效效果. 而NVLink和PCI-E的GPU之间的两个终端无法自路由, 需要由用户指定路由的源GPU和目标GPU在内核函数中实现显式路由操作.

基于底层互联链路, 在多GPU集群中设计了多种通信方式, 包括点对点通信和集合通信. 点对点通信直接依附于通信链路, 通过CUDA中的通信API: cudaMemcpy和cudaMemcpyPeer实现CPU-GPU和GPU-GPU之间的通信. 集合通信通常会涉及多个发送者和接收者, 其操作包括广播(broadcast)、分散(scatter)、聚集(gather)等. 有效第实现集合通信, 要综合考虑集群中的所有设备状态, 因此需要从底层的硬件拓扑结构出发, 选择合适的通信路径, 以解决通信过程中的冗余、同步和死锁问题. 在本节中, 下面介绍UVA和NCCL两种通信方式, 优化传统通信过程中的通信延迟.

UVA: 统一虚拟寻址(unified virtual addressing)是CUDA v4.0版本起支持的新特性. UVA本质上没有缓解PCI-E的低带宽和高延迟, 其通过零拷贝(zero-copy)内存为所有内存提供一个虚拟地址空间, 允许GPU中的访存指针直接内存访问, 而不需要显式的数据拷贝; 通过固定内存(pinned memory)锁定主存存储页, 避免因分页引起的页面缺失. Dipanjan Sengupta等人^{[10, 29]}在GraphReduce中发现: 顺序内存访问时, UVA具有更好访存性能. 因此, GraphReduce采用UVA方式分配内存空间, 并配合数据预取将数据传输和GPU计算过程重叠, 以此提高图计算效率. 统一内存(unified memory, UM)基于UVA实现, 创建一个CPU和GPU的统一托管内存池, 内存池中已经分配的空间可以由CPU或GPU中相同的指针直接访问. UM在图计算领域常被用于主存与显存的交互方式, Pengyu Wang等人^[30]评估了不同UM配置下图计算的工作负载, 设计了GRUS解决超额调配GPU内存场景, 针对不同图数据大小和数据结构优先级, 采用不同的内存访问模式, 优化了图计算的内存访问效率. 然而, 由于多GPU之间的数据竞争, 该方法无法很好地扩展到多GPU环境中;

NCCL: NVIDIA开发的GPU集合通信库NCCL (NVIDIA collective communication library)高效地实现了多设备间的高性能通信, 现已集成到多个深度学习平台上. 目前, NCCL库有两个版本: NCCL-V1(开源)和NCCL-V2(闭源). 为了最大化传输带宽, NCCL通信库可以自动识别节点内的NVLink, PCI-E和QPI链路, 在硬件拓扑结构中构建环状通信路径. 将大数据集细粒度切分成小块, 沿环状网络以流水线形式传输. 据分析: 当数据切分份数远大于设备数时, 集合通信所需要的时间趋于点对点通信时间, 即集合通信时间不会随着设备数量的增加而增加, 为集合通信的扩展性能提供了可能.

如表 2所示, 以3种最为常见的点对点通信方式为例: Zero-Copy是采用UVA特性的传输形式, MemCopy是传统显式的数据拷贝形式, MemCpyAsync是异步的显式数据拷贝形式.

点对点通信在传输不同大小数据时的通信延迟

设备间数据传输大小Size (KB)	设备间零拷贝Zero-Copy (ms)	同步式设备间内存访问MemCopy (ms)	异步式设备间内存拷贝MemCpyAsync (ms)
4	0.017	0.040	0.025
16	0.037	0.061	0.050
64	0.118	0.136	0.124
256	0.621	0.405	0.372
1 024	3.317	1.497	1.419
4 096	25.272	5.391	5.307
16 384	174.579	27.144	28.302

从表中可以看出: 对于小数据传输时, 选择Zero-Copy的通信延迟都要优于其他两种; 而在传输大数据, Zero-Copy性能不佳. 结合图 4对比UVA和NCCL在传输不同数据大小时的通信带宽, 同样验证了UVA在传输小数据时的通信带宽要略优于NCCL; 而NCCL在广播大数据时, 通信带宽要远优于UVA和其他点对点通信方式.

● 现有系统扩展到Multi-GPU链路技术时存在的可扩展性缺陷

综上所述, 当前最先进的面向Multi-GPU服务器的大规模图数据并行计算系统^{[1, 3, 20]}尽管为解决大规模图数据应用问题提供了均衡图切分和异步同步等各类策略以适用于大规模图并行计算, 然而这类Multi-GPU图数据并行计算系统仍然在系统可扩展性上无法表现优化的性能, 甚至在4块以上GPU上的数据处理性能反而下降明显. 经过上述系统性分析, 本文发现当前Multi-GPU图计算系统存在两类重要缺陷: 1) 部分忽略了系统内部连接(包括链路拓扑、连通性和路由)的设计; 2) 通常采用过于单一的设备间数据组织和移动策略, 如UVA等, 这种选择单一的GPU显式数据传输技术在应对不规则图数据集计算时, 会带来大量设备计算同步开销, 并且无法充分利用高性能的NVLink链路带宽资源. 根据上述实验评估结论, 本文进一步给出Multi-GPU高可扩展图计算系统的设计动机.

2 Multi-GPU下高扩展图并行计算系统的设计动机

随着GPU设备间链路通信技术的持续更新, 设备间数据移动的性能得到显著改进. 然而, 现有相关研究工作在设计Multi-GPU图并行计算系统时, 在一定程度上忽视了对这类先进设备间链路技术优势的使用, GPU设备间高效的链路带宽资源并未得到充分利用.

在本节中, 基于对服务器可伸缩性评估的研究, 本文总结了不同节点间互连技术在不同粒度图数据、通信模式以及负载均衡的影响(带宽、延迟等). 之后, 给出了在扩展到多GPU平台上架构和设计大规模图并行计算系统所面临挑战和应对策略选择.

2.1 扩展到Multi-GPU平台图并行计算的优化策略选择

● 体系结构感知的连通性预判

在Multi-GPU服务器中, 各GPU设备均配置若干链路桥接器(图 3), 点对点(P2P)链路的可选路径也往往各不相同. 这种异构连接性, 使得当前Multi-GPU图计算系统的单一通信方式难以实现最优的通信链路选择.传统P2P通信需要对传输到不同设备的顶点进行分类别打包, 否则将会有通信数据冗余. 此外, P2P通信无法充分利用硬件网络拓扑中的NVLink链路, 造成链路资源利用率低下. 从图 5(b)的延迟和性能在多块GPU设备的评估表明: 当从4块GPU扩展到5块GPU时, 系统性能会急剧下降. 进一步, 根据图 3(a)中各GPU设备的互联情况可以看出: 上层的4个互联设备[GPU0−GPU3]和下层4个设备[GPU4−GPU7]不在同一平面连接, 这会导致可扩展性能不佳. 通常情况下, 同一平面互联互通的多块GPU设备间的通信延时要远小于跨平面GPU之间的通信.

因此, 在进行大规模大粒度数据移动操作之前, 通过预先检测服务器体系结构下多GPU设备间的连通性, 从而预判数据路由流的最优选择, 避免设备之间单一的数据传输路径.

● 设备间同步数据的粒度选择

从图 5给出的数据可见, 利用不同链路技术的数据传输带宽随数据包大小而变化. 具体地, 在传输1M− 256M数据包大小时, GPU设备间的数据链路带宽随着数据包大小的增加, 也同样呈现出上升趋势. 同时, 从图 5(b)的带宽和延迟分析发现: 当GPU设备数量大于4时, 设备间的数据移动开销增大, 导致点对点传输(UVA, P2PBroadcast)操作的整体性能急剧下滑. 同时, 不同数据包的延迟与数据集的大小成类线性关系. 对比来看, WSVR通过利用统一内存访问(UVA)在CPU内存中缓存顶点值的方法, 在处理GPU计算同步时, 由于每轮迭代都需对顶点进行大量更新和同步, 势必带来CPU-GPU间I/O操作, 引入过大的延迟和同步开销.

因此, 在应对不规则的、稀疏的图数据集时, Multi-GPU图并行计算系统的可扩展性不仅需要考虑根据数据粒度来选择最优的设备间链路, 更为重要的是, 决策传输数据包的大小和选择更为合理的数据传输操作(P2P/UVA/显式/集合通信等), 以达到最优传输性能.

2.2 本文的方法

为了使当前基于GPU的图数据并行计算系统能够更好地扩展到Multi-GPU平台上, 本文拟构建优化的通信模型来识别各GPU设备的连通性和工作负载调度情况. 第3节将介绍我们的Multi-GPU图计算系统的全新基于混合感知的细粒度图计算通信模型. 为了解决不同结构数据通信模式选择和计算与通信平衡性的权衡挑战, 本文设计并实现了一个通用的GPU图并行计算框架, 并对所提策略(GPU缓存优化、多核CPU和多GPU设备协同)进行集成化实现, 形成面向Multi-GPU图计算并行系统ChattyGraph, 第4节将详细描述其实现部分.

3 面向Multi-GPU服务器基于混合感知的细粒度图计算通信模型

通过数据感知通信^{[3, 4]}和GPU间连接性^[20]和本地计算与远程通信的权衡分析^[25]的动机启发, 我们提出了新的多GPU图数据细粒度通信模型, 以解决第2节所提挑战. 当前的Multi-GPU图数据并行计算系统无法充分利用GPU设备间的数据链路, 导致系统可扩展性和性能无法达到最优化, 而本文所提出的全新微调可伸缩图数据并行处理策略用于选择最佳通道的结构感知数据通信运行时. 为了解决Multi-GPU图计算系统的可扩展性问题, 本文通过以架构拓扑中高带宽链路的资源利用为中心, 来构建高效设备间数据交换机制.

3.1 混合图感知内部通信运行时

如第2节讨论所述, 现有Multi-GPU图数据并行计算系统在迭代计算执行过程中选择了单一特定的通信模型. WSVR图数据计算框架采用统一内存管理技术(UVA)在主机内存端进行数据同步, Groute图数据计算框架也采用主机内存端进行数据同步, 并配合传输路由, 优化了WSVR中完全的UVA形式, 属于不完全的主机内存端同步.

相比之下, ChattyGraph使用细粒度和粗粒度的GPU间通信操作, 这是一种混合的数据结构感知的内部通信运行时. 这是因为在不规则图数据处理的并行迭代过程中, 不同的处理数据集有不同大小的值需要同步, 并要求不同类型的并行. ChattyGraph旨在为不同粒度的结构数据和应用数据、状态数据提供不同的GPU间通信操作以及不同的GPU内内存访问. 为了降低PCI-E的带宽、延迟等资源局限性, ChattyGraph充分利用NVLink构建GPU之间的路径, 大大排除了CPU参与的计算. 如下所示, ChattyGraph在我们的混合运行时中主要选择了两个优化的通信操作.

● 通过集合操作的结构数据路径

统一虚拟寻址主要用于存储在CPU主机缓冲区中的整个结构图数据集, 在初始化阶段, 经由CSR图数据压缩后分割和分配给多GPU, 各GPU访存内设置切分后, 部分图数据大小的空间与该缓冲区对等, 包括顶点偏移量和边, 底层GPU设备通过寄存器操作以保障缓存的一致性. 然而, 底层有限的PCI-E带宽使得CUDAMemcpyAsync操作无法扩展到从多个设备访问海量图数据结构, 成为扩展到多GPU系统时的主要瓶颈. 与传统的结构数据同步机制不同, ChattyGraph通过预先分配全局顶点值数组的缓冲区来部署广播操作, 因为所有互连GPU设备中都存在大量对更新值的访问. 更具体地, ChattyGraph消除了CPU内存缓冲区作为路由器的参与. 整个同步阶段完全在GPU之间执行, 如图 6蓝色区域所示: ChattyGraph将原本位于CPU内存端的全局顶点值数组移入各GPU设备显存中, 在每个GPU设备中维护一个全局顶点值数组, 更新的顶点通过NCCL进行链路广播, 以此最大限度地减少CPU的参与. 由于全局顶点值数组保存在设备显存中的原因, 顶点值的更新过程可以直接在GPU设备中完成而无需PCI-E的参与. ChattyGraph充分利用GPU多线程的特性(如图 7所示), 单线程控制数组对应位置并对对应位置的值进行更新, 图中recvBuffer的V1位对应全局顶点值数组的V1位.

混合通信模型

多线程更新

由算法1的ChattyGraph主控流程伪代码所示: 当设备完成本轮计算任务(第10行)后, 需要通信的顶点值会保存在发送缓冲区, 并由NCCL的广播函数进行广播(第15行), 广播的目的地址是每个设备的接收缓冲区.在下一轮迭代开始时, 所有设备都需从上轮迭代的接收缓冲区中更新顶点值(第6行), 通过多线程管理接收缓冲区数组的每一位, 更新对应关键词的value值. 通过采用集合操作的GPU内弹性缓冲区空间策略. 值得注意的是: 各GPU设备间的结构数据以NCCL的广播策略感知GPU间链路通信效率, 构建GPU集群硬件环状拓扑, 经由NVLink高速通路进行数据移动. 这一策略显著地降低了对统一虚拟寻址的操作开销, 不仅一定程度上摆脱了PCI-E的带宽资源依赖, 而且有效避免了GPU的缓存一致性保障机制所带来的开销.

● 通过P2P操作的状态数据路径

图计算迭代过程中的状态数据主要包括GPU设备状态、需要传输的定量数据计数和迭代间控制的标志位等. 状态数据集是迭代式图计算应用所必需的. 通过度量, 状态数据量的粒度相对结构数据量较小, 然而对在Multi-GPU处理中的系统扩展性能具有不可忽视的影响, 因为GPU设备的状态控制需要在每一轮迭代后根据不断更新的状态值判断是否需要同步, 进而影响迭代轮收敛结果. 这类状态数据如图 6黄色区域所示. 具体地, 算法1给出了GPU的状态数据的执行流程. 状态数据的通信量会影响CPU端显式数据拷贝指令的发布, 即第12行需要将通信量拷贝回主存, 以便第15行广播指令确定通信数据数量. 因此, 当设备完成本轮计算任务(第10行)后, 会首先将该设备计算得出的通信量值(count值)通过UVA方式拷贝到内存, 以设备ID作为关键词检索(devID.count值)(第12行); 整个系统受迭代控制位控制, 每轮迭代结束前, 都需判断系统是否停止迭代(第19行), 因此, 每个设备将计算得到的迭代控制位通过UVA方式拷贝到内存中, 并由CPU管理是否需要结束系统迭代. 然而, 大量同步操作使设备的并行性普遍陷入串行模式执行. 为了减少缺陷, 我们采用多核控制多GPU设备(第3行), 即通过多线程的线程号来管理GPU设备号, 以对这些数据实现异步I/O策略可能性.与传统图数据计算系统采用单核控制多GPU设备相比, 单核控制多GPU设备虽然在不同GPU设备计算和通信中实现并行, 但是由于单核的原因, CPU对控制指令的发射过程依旧是串行的, 如后文图 9(a)所示. 传统图计算系统大都采用for循环管理GPU设备号, CPU对多GPU设备号依次串行发射控制指令, 如若指令间没有阻塞点, CPU无需等待GPU运行结果, 实现多GPU并行计算. 而当计算和传输中间存在阻塞点时, 例如需要等待计算结果完成才能进行正确的数据传输(第11行), 阻塞点(如streamSynchronize)会中断for循环中的控制指令流, CPU对其余GPU设备的同步和计算指令无法发出, 阻塞其余GPU设备正常运行, 不利于多GPU设备的并行性能提升. 因此, ChattyGraph采用多核并行控制, 通过多线程的线程号管理多个GPU设备号, 多线程的控制指令并行发出, 如后文图 9(b)部分所示, 即使单个设备的计算过程中存在阻塞点, 也不会影响其余设备的正常运行.

算法1. ChattyGraph主控流程伪代码.

方法:

(1) initialization;

(2) WHILE Iteration not finish do

(3) devID=threadID;

(4) FOR targetDevID in 0 to numGPUs do

(5) IF targetDevID not equal to devID THEN

(6) download(devID.values, targetDevID.values, targetDevID.count);

(7) END IF

(8) END FOR

(9)

(10) compute(⋅);

(11) streamSynchronize(⋅);

(12) cudaMemcpy(devID.count, count);

(13)

(14) FOR targetDevID in 0 to numGPUs do

(15) ncclBroadcast(devID.sendBuffer, targetDevID.recvBuffer, devID.count, devID);

(16) END FOR

(17)

(18) /* Does iteration finish? */

(19) IF all devices finished THEN

(20) Iteration finish

(21) END IF

(22) ELSE THEN

(23) Iteration not finish

(24) END ELSE

(25) END WHILE

其中, 设备信息通过设备ID(包括源设备devID和目标设备targetDevID)进行检索, 包括设备中存储的全局顶点值数组(devID.values)、设备发送缓冲区(devID.sendBuffer)、设备接收缓冲区(devID.recvBuffer)和设备通信量(devID.count).

download函数用于在GPU设备中将接收缓冲区中的顶点值更新到全局顶点值数组中; streamSynchronize函数为CUDA API, 用于阻塞CPU线程等待GPU运行结束; cudaMemcpy函数为CUDA API, 用于CPU与GPU间显式的数据通信; ncclBroadcast为NCCL API, 用于在多GPU之间实现广播通信; compute函数提供的图算法实现的API接口如下.

● InitVertex(vertex): 用于初始化本地共享内存中的顶点值, 其中, 参数vertex表示通信同步后的顶点;

● ComputeScatter(vertex, edge, shared_vertex): 通过全局内存中顶点和边值, 每个线程计算对应共享内存顶点, 其中, vertex和edge表示全局内存中的顶点和边, shared_vertex表示每个线程对应的共享内存存储顶点;

● ComputeReduce(shared_vertex, nbr_shared_vertex): 用于更新邻居顶点, 其中, shared_vertex表示共享内存中顶点, nbr_shared_vertex表示共享内存中顶点的邻居顶点;

● UpdateStatus(computed_vertex, previous_vertex): 用于判断顶点在本轮是否有更新, 其中, 参数computed_vertex表示顶点本轮计算的结果, previous_vertex表示顶点上轮计算结果.

4 ChattyGraph系统实现与优化

本节对上述的细粒度图数据通信模型进行了集成实现, 设计了面向Multi-GPU高可扩展图并行计算系统ChattyGraph. 图 8给出了ChattyGraph的整体系统架构, 主要包含两大模块: 通信引擎和计算引擎. 其中: 通信引擎用于GPU设备间数据传输, 包括多GPU间的环状广播和单GPU内数据更新; 计算引擎用于CPU对GPU的核函数的执行和控制逻辑, 各迭代轮计算结果保存在相应缓冲区以便下轮通信. ChattyGraph通过标准C++和CUDA实现, 为Multi-GPU下图并行计算提供了统一运行引擎, 通过提供用户友好的以顶点为中心的编程API接口, 以实现多GPU设备图数据应用.

ChattyGraph系统架构图

4.1 GPU图数据表征存储及设备缓冲区优化

通信引擎主要负责CPU-GPU与GPU-GPU间的数据读写和同步, 对顶点数据在全局GPU间同步采用ncclBroadcast广播, 而对于状态数据采用在主存中开辟UVA空间, 以显式cudaMemcpyAsync提供传输策略.在通信模块中, 由于各GPU全局访存空间有限, 缓冲区的预分配和初始化对设备间数据传输和同步、GPU缓存空间的优化尤为重要.

在Multi-GPU的数据初始化阶段, ChattyGraph对各GPU设备一个发送缓冲区和两个接收缓冲区. 此外, 考虑到顶点值数据的持续读写更新, ChattyGraph采用全局顶点值数组, 用以记录每一轮迭代顶点的计算值. 在每一轮GPU计算迭代轮开始之前, 各GPU设备都会从接收缓冲区中将上一轮迭代从其他设备中接收到的顶点值更新进全局顶点值数组, 并从全局顶点值数组中取出所需要的顶点进行计算过程. 最终迭代轮的计算结果仍保存于全局顶点值数组中, 同时将更新后边界顶点填充进发送缓冲区中, 等待同步通信.

为了实现多任务的并行执行, ChattyGraph通过设置发送和接收缓冲区可以提升GPU设备间的数据移动性能. 双接收缓冲区保证GPU在更新时不会因读写冲突而写入脏值. 因为多设备异步计算的原因, 多设备间执行步骤相同, 但执行速度不同. 假设当设备A正在从本设备的接收缓冲区更新上轮数据到全局顶点值数组中, 但此时设备B已计算完成并开始向设备A的接收缓冲区发送本轮计算的更新值, 此时便形成了读写冲突.因此, 我们采用双接收缓冲区, 并利用奇偶迭代数交替使用两个接收缓冲区.

4.2 基于OPENMP与NCCL的多核GPU协同计算

在CPU和GPU协同计算方面, 现有Multi-GPU图并行计算系统常采用单核控制多设备的编程模式. 然而, 我们发现: 现有并行计算系统中常会出现阻塞点, 限制多GPU高性能并行. 以指令顺序为基础, 在顶点的计算指令中, 不仅要得到每个顶点的计算更新值, 还需要统计通信量大小. 而不管是显式的P2P传输CUDAMemcpyPeerAsync还是NCCL通信库中的ncclBroadcast, 其API接口count参数都为整数型数据类型. 因为CPU与GPU之间的异步特性, CPU在发送完成计算核函数指令(第10行)后不会等待GPU计算, 随即发送通信指令(第12行), 而此时通信量还未计算得出, 即发送了错误的通信数量. 为了获得正确的通信值, 现有GPU图并行计算系统不得不使用同步机制cudaStreamSynchronize(第11行)来等待设备计算的完成, 这将导致大量straggler同步开销, 影响计算任务的并行度.

为了解决阻塞点问题, ChattyGraph摈弃了传统单核控制多设备的编程模式, 提出了多核控制多设备机制.具体地, ChattyGraph采用OpenMP多核编程框架以控制多线程计算, 每一个线程控制对应GPU的核函数调度(第3行), 最终实现多GPU与CPU多核处理器间的协同并行处理(如图 9(b)部分). 采用多核控制多设备的机制下, ChattyGraph允许单设备执行其相应计算指令而无需等待其他设备执行情况, 因而不会影响整体系统的并行度和性能. 据对现有GPU图计算系统调研可知, 采用OpenMP和NCCL的协作计算模型尚未有相关研究工作进行. 通过实验验证, 以多线程加载核函数的机制大幅提升了Multi-GPU服务器的图计算性能, 并得到更好的系统可扩展性.

单核与多核控制多设备时CPU指令流顺序对比

4.3 细粒度化顶点更新值同步

计算引擎主要负责顶点在GPU中的计算过程. 在计算过程中, 为了尽可能地减少GPU间通信量, 采用仅通信更新的边界顶点. 如何确定系统中更新的边界顶点分为以下两步.

● 在图划分过程中, 首先标记边界顶点, 边界顶点的定义是: 一条边的两端顶点不在同一个分区中, 则两点属于边界顶点. 遍历所有边集, 判断具体边的源顶点和目的顶点是否跨GPU设备, 即边的源顶点和目的顶点不在同一个分区(GPU设备), 则标记为边界顶点;

● 在计算过程中, 对更新顶点进行标记. 以CUDA Warp-Level原语支持的集体操作为基础, 通过线程来计算每一个顶点的值, 32个线程为一个warp, 并以一个warp作为一个单元. ChattyGraph中涉及的原语如下:

__any_sync: 当warp返回值中任意一个非零, 则返回非零;

__ballot_sync: 当warp中第n个线程处于活跃状态, 则返回非零;

__popc: 统计warp中活跃线程数量.

首先, __any_sync确定32个线程中更新了哪几个线程, __ballot_sync将其转换为32位01序列. 在序列化的支持下, __popc可以统计一个warp中更新顶点的数量并记录其位置, 最终将标记了更新位和边界位的顶点的位置与其值填充进输出缓冲区中.

5 评估实验和结果分析 5.1 实验环境及数据

● 实验平台

在配置8块互联互通的NVIDIA V100 GPU协处理器的NVIDIA DGX服务器上进行验证实验. 每个GPU有5 120个流式多处理器、32 GB全局内存和768 KB二级缓存. 该系统还包括两个64核Intel(R) Xeon(R) CPU Platinum 8163(2.5 Hz)和256 GB DDR4主内存, 运行Ubuntu 16.04(内核4.15.0)和CUDA 10.0. 整体实验平台NVIDIA DGX服务器的连接性如图 3(a)所示. 每个GPU支持4个NVLink链路插槽, 其中, 两个链路通过NVLink-V2连接, 另外两个链路通过NVLink-V1连接.

● 图数据集

表 3给出了标准的开放图数据集合, 以用于本文系统性能和可扩展性验证. 这类图数据均采自真实世界的应用场景, 本文通过这类斯坦福大学大规模网络数据集的集合, 以展现各种大小和功能的图基准验证. 我们选择了4个公开可用的真实世界图数据, 这些图数据也广泛应用于各类GPU图数据并行计算系统的性能和可伸缩性评估标准.

数据集特征

数据集	顶点数	边数	大小(GB)
soc-LiveJournal1^[31]	4 847 584	68 993 773	1
USA-road^[32]	23 947 360	58 333 344	1.2
osm-eur^[33]	173 789 216	347 997 111	7.08
Twitter^[34]	61 578 432	1 468 365 182	24.37

● 基准测试集

为了进行更为全面和公平的比较, 本文选择了3种标准的图计算和遍历算法进行系统评估, 包括单源最短路径(SSSP)、广度优先搜索(BFS)和PageRank(PR). 我们在性能、可扩展性等指标中展示了这3种算法的运行时间(每类算法运行10次取平均值).

● 对比系统

本文的对比系统选用当前最先进的GPU图数据并行计算系统(WS-VR, Groute)来进行评估, 并分别报告各自系统的整体执行性能、分阶段执行性能、系统可扩展性、运行时间、冗余工作负载减少以及延迟度量. 上述两种系统与ChattyGraph都使用相同的平台(NVIDIA DGX)进行评估, 并提供对比数据.

5.2 与先进图数据并行计算系统性能对比

首先, 我们对ChattyGraph和当前Multi-GPU图数据并行计算系统(Groute和WS-VR)进行性能比较. 通过对比遍历和计算应用(SSSP和PageRank)的性能结果, 从表 4的整体执行效率可见, ChattyGraph在所有应用程序中大部分显著优于其他系统. 其中, 对于USA-road图中的SSSP应用, ChattyGraph在8GPU下执行的整体时间(4 045.44 s)显著低于另外两个系统WS-VR和Groute至3.5× (14 711.8 s)和3.9× (15 825.89 s). 进一步, 从图 10中, 我们评估对比了ChattyGraph和Groute, WS-VR在多块GPU引入时的计算性能的可扩展性. 整体而言, 从使用1GPU到8GPU, ChattyGraph可以比这两个系统性能更高、更具可扩展性; 与单GPU相比, ChattyGraph在8个GPU上实现了3×的加速. 与Groute相比, ChattyGraph在1GPU和8GPU配置下执行效率高于3×. 这是因为ChattyGraph用了更为高效的通信运行时, 通过对不同粒度的数据集采用性能各异的链路和操作, 显著地优化了多GPU之间协同的数据通信; 相对而言, Groute则着重关注异步通信驱动的多GPU协作, 忽略了当前多GPU之间的高速互联通道. 与WS-VR相比, ChattyGraph也实现了更好的性能, 仅在5GPU配置性能稍弱. 这是由于当前硬件拓扑结构无法形成环状拓扑, 有额外的通信开销.

先进图计算系统对比

数据集	算法	GPU数量	WSVR	Groute	ChattyG
USA-road	SSSP	1	10 415.3	33 261.37	10 406.8
		2	5 814.39	22 565.26	5 478.73
		3	5 952.88	18 749.16	4 359.85
		4	6 234.02	18 158.48	3 820.02
		5	8 829.48	16 751.32	9 012.92
		6	10 406.9	18 212.56	4 566.57
		7	13 029.6	16 384.66	4 418.74
		8	14 711.8	15 825.89	4 045.44
USA-road	PageRank	1	39.693	428.875	39.684
		2	20.016	214.366	24.08
		3	20.515	138.486	23.662
		4	23.178	106.844	23.872
		5	34.765	86.882	27.226
		6	32.348	78.635	27.135
		7	35.576	72.392	28.691
		8	42.68	70.535	31.554
Twitter	PageRank	1	19 751.5	13 762.296	18 051.7
		2	18 804.2	9 772.269	17 507.7
		3	8 632.92	8 104.444	8 615.4
		4	8 596.6	7 970.716	8 488.03
		5	7 864.87	8 954.205	7 766.54
		6	7 800.82	8 021.378	7 488.87
		7	7 830.87	6 999.526	7 669.34
		8	6 470.85	7 705.487	5 954.21
LiveJournal	PageRank	1	781.653	230.665	781.328
		2	402.4	242.332	417.014
		3	259.677	258.378	229.693
		4	306.863	281.903	270.467
		5	308.234	598.843	276.369
		6	273.666	1 068.281	230.799
		7	256.483	1 478.873	225.335
		8	251.955	2 144.472	198.01

ChattyGraph与先进图计算系统扩展性对比

此外, 需要额外注意的是: 随着GPU设备数量的增加, ChattyGraph实现了比其他两个系统更高的加速比(在8GPU下平均3.8×). 从SSSP应用程序上的这些结果可以看出: ChattyGraph在该图遍历算法中实现了更好的性能和更高的可扩展性, 执行加速比分别对比Groute和WSVR达到了4.48×和1.8×的提升.

从对这3个数据集的PageRank标准测试来看, ChattyGraph也表现出良好的性能和可扩展性. 尽管ChattyGraph对Twitter图数据的效率不如Groute和WS-VR, 但在扩展到多个GPU设备时, ChattyGraph仍然实现了更好的可扩展性. 例如, 图 10(c)、图 10(d)展示了ChattyGraph, Groute和WS-VR在LiveJournal和Twitter图上执行PageRank的可伸缩性比较. ChattyGraph在8GPU上的平均加速比普遍能达到3×−4×左右. 这是因为PageRank应用程序在GPU设备之间的通信具有更大的工作负载. 而我们的ChattyGraph: 1) 改进了不规则结构感知通信; 2) 通过减少冗余工作负载, 最大限度地减少通信开销.

为了进一步评估ChattyGraph的可伸缩性, 我们评估了其他算法和数据集上的可伸缩性, 即BFS在USA- road图和SSSP在osm-eur图(如图 10(a)、图 10(b)所示)上的运行结果. 评估结果表明: 当GPU数量达到4个以上时, 其他两个系统(Groute和WS-VR)的性能会有明显的下降; 只有ChattyGraph在扩展到6GPU−8GPU时实现了加速, 相对比4GPU配置下具有1.1×和1.6×的性能提升.

5.3 通信量优化

进一步, 考虑到具体的策略针对Multi-GPU下的设备间通信展开, 本文对ChattyGraph的通信量优化进行了深入的分析. 从通信量优化的实验结果(图 11)可见: 在每一轮迭代过程中, ChattyGraph中的通信开销显著减少, 达到3×的下降. 通信量对于在多GPU平台上的可扩展性至关重要: 通信量越小, 表示ChattyGraph系统能够进一步降低设备间数据通信的依赖性, 进而提升整体系统在Multi-GPU服务器上的可扩展性.

更新顶点与通信顶点数量对比

从图 11(a)中的结果可以看出: 与更新顶点总数相比, ChattyGraph只传递了三分之一的顶点值, 其中: 在USA-road图数据运行SSSP基准测试中, 也不乏有不需要GPU间通信的时刻. 通过引入更新的边界顶点划分传输, 每一轮迭代, ChattyGraph都显著减少了顶点值的通信量. 同样, 以USA-road为例, 运行PageRank基准测试进行评估(如图 11(b)所示). 结合这两张图我们可以观察到: 针对不同算法, 在最高值需要通信的顶点数目不同. PageRank中, 通信顶点占更新顶点总数的百分比(80.6%)远远大于SSSP算法(37.4%). 我们可以得出结论: 对于遍历算法而言, 采用ChattyGraph对数据通信时间上的实质性改进更为显著.

5.4 OpenMP对可扩展性的影响对比

为了比较单核与多核控制多设备对系统可扩展性的影响, 我们分别比较了Peer-to-Peer Broadcast, UVA Broadcast(WS-VR)和NCCL Broadcast在有无OpenMP下的图计算时间, 以下实验都以USA-road为例运行SSSP基准测试.

图 12(a)是采用单核控制多GPU编程模式, 由于统计通信量的原因, 需要在计算核函数后进行流同步等待, 导致了多GPU在单核下的串行指令顺序, 破坏了多GPU的并行性. 而图 12(b)采用OpenMP多核控制多GPU编程模式, 多GPU在不同的流中并行启动执行核函数, Synchronize过程不会影响其他GPU的运行. 综合两张图我们可以观察到: 在未使用OpenMP的情况下, P2P和NCCL的性能下降50%, 同时, 因为指令类串行化的原因, 随着GPU设备数量的增加, 图计算时间也会随之增加; 而对于采用OpenMP模式的3种通信方式, 性能都得到了显著的提升, 尤其是在2GPU−4GPU与5GPU−8GPU时, NCCL可以呈现出非常不错的延展性. 4GPU−5GPU下NCCL处理性能下降, 是因为GPU跨层的影响.

OpenMP对扩展性分析

5.5 GPU间多种通信方式对可扩展性影响对比

为了观察将系统ChattyGraph的图数据处理过程从一个GPU扩展到多个GPU的效果, 通过比较UVA, NCCL和p2pBroadcast这3种通信技术, 对USA-road, eur-osm和LiveJournal这3种图数据在ChattyGraph中进行评估, 并说明从1GPU扩展到8GPU时的性能.

从图 13的结果来看: 从1GPU到4GPU的加速, ChattyGraph中采用的3种通信方法都达到了最佳的类线性结果, 分别达到了2.72×, 2.87×, 2.94×; 当对执行配置超过4个GPU设备时, NCCL方法的效果优于其他两种方法(UVA和p2pBroadcast), 平均提供了1.6×和1.9×的数据性能提升. 这是因为4个GPU通过NVLink完全连接, 当扩展到5个GPU时, GPU5需要从其他所有4个GPU请求同步相应的更新顶点值, 这类数据的通信请求将会通过PCI-E总线进行操作, 导致性能的一定下降. ChattyGraph通过使用细粒度的数据链路方法减少了通信开销, 因此, 这3种方法在扩展到更多GPU时, 都实现了良好的可伸缩性. 即使扩展到3GPU, 集成这3种通信方式的ChattyGraph的性能也可以实现接近于最佳线性可伸缩性的性能, 相对比采用单块GPU达到3×性能提升.

多种通信方式对扩展性分析

6 总结

在这项工作中, 本文提出了ChattyGraph, 一种新型的面向多协处理器高性能环境的大规模图数据并行计算系统, 用于在当前HPC节点上实现与现代总线链路互联互通的GPU设备集成的高可扩展图数据计算. 从目前最先进的Multi-GPU图并行计算技术来看, 当前的系统仍然存在以下缺陷: (1) 无法充分利用GPU的高通量连接性; (2) 通常采用过于单一的设备间数据组织和移动策略. ChattyGraph采用混合通信运行时技术, 以结合最小化通信开销, 从而为Multi-GPU图计算并行系统提供了高可扩展性支持, 充分利用现代GPU链路技术的高带宽和低时延特性. 在大规模真实图数据和标准测试集上的结果表明: ChattyGraph相比WSVR和Groute在性能和可扩展性上均实现了显著改进, 并且随着GPU数量的增加和图数据规模的扩大, ChattyGraph可以更为高效地扩展. 未来的工作将围绕分布式多协处理器的高性能环境展开, 拟充分利用现代网络链路技术, 以进一步提升ChattyGraph的计算性能和应用范围.

References 1

Ben-Nun T, Sutton M, Pai S, et al. Groute: An asynchronous multi-GPU programming model for irregular computations. In: Proc. of the 22nd ACM SIGPLAN Symp. on Principles and Practice of Parallel Programming. ACM, 2017. 235-248.

Fu ZS, Personick M, Thompson B. Mapgraph: A high level API for fast development of high performance graph analytics on GPUs. In: Proc. of the Workshop on GRAph Data Management Experiences and Systems. ACM, 2014. 1-6.

Pan YC, Wang YZH, Wu YD, et al. Multi-GPU graph analytics. arXiv: 1504.04804, 2015.

Khorasani F, Vora K, Gupta R, et al. CuSha: Vertex-centric graph processing on GPUs. In: Proc. of the 23rd Int'l Symp. on High-Performance Parallel and Distributed Computing. ACM, 2014. 239-252.

Wang

YZH

Pan

2015

Performance characterization of high-level programming models for GPU graph analytics. In: Proc. of the IEEE Int'l Symp. on Workload Characterization (IISWC). IEEE 2015 66 75

Wu YD, Wang YZH, Pan YC, et al. 2015. Performance characterization of high-level programming models for GPU graph analytics. In: Proc. of the IEEE Int'l Symp. on Workload Characterization (IISWC). IEEE, 2015. 66-75.

Ben-Nun T, Levy E, Barak A, et al. Memory access patterns: The missing piece of the multi-GPU puzzle. In: Proc. of the Int'l Conf. for High Performance Computing, Networking, Storage and Analysis (SC 2015). ACM, 2015. 19: 1-19: 12.

Adar

Managing uncertainty in social networks

Bulletin of the IEEE Computer Society Technical Committee on Data Engineering 2007 30 2 15 22

Adar E, Re C. Managing uncertainty in social networks. Bulletin of the IEEE Computer Society Technical Committee on Data Engineering, 2007, 30(2): 15-22.

Kwak H, Lee C, Park H, et al. What is Twitter, a social network or a news media? In: Proc. of the 19th Int'l Conf. on World Wide Web (WWW 2010). New York: ACM, 2010. 591-600.

Shirahata K, Sato H, Matsuoka S. Out-of-Core GPU memory management for MapReduce-based large-scale graph processing. In: Proc. of the 2014 IEEE Int'l Conf. on Cluster Computing (CLUSTER). 2014. 221-229. https://doi.org/10.1109/CLUSTER.2014.6968748

Sengupta D, Song SL, Agarwal K, et al. GraphReduce: Processing large-scale graphs on accelerator-based systems. In: Proc. of the Int'l Conf. for High Performance Computing, Networking, Storage and Analysis. ACM, 2015. 28.

Zhong

Medusa: Simplified graph processing on GPUs

IEEE Trans. on Parallel and Distributed Systems 2014 25 6 1543 1552

10.1109/TPDS.2013.111

Zhong JL, He BS. Medusa: Simplified graph processing on GPUs. IEEE Trans. on Parallel and Distributed Systems, 2014, 25(6): 1543-1552.

Khorasani F, Gupta R, Bhuyan LN. Scalable SIMD-efficient graph processing on GPUs. In: Proc. of the 2015 Int'l Conf. on Parallel Architecture and Compilation (PACT). 2015. 39-50. [doi: 10.1109/PACT.2015.15]

Kyrola A, Blelloch G, Guestrin C. GraphChi: Large-scale graph computation on just a PC. In: Proc. of the 10th USENIX Symp. on Operating Systems Design and Implementation (OSDI 2012). 2012. 31-46.

Hong S, Kim SK, Oguntebi T, et al. Accelerating CUDA graph algorithms at maximum warp. In: Proc. of the ACM SIGPLAN Notices. Vol. 46. ACM, 2011. 267-276.

Naumov M, Vrielink A, Garland M. Parallel depth-first search for directed acyclic graphs. In: Proc. of the 7th Workshop on Irregular Applications: Architectures and Algorithms. 2017. 1-8.

Liu H, Huang HH. Enterprise: Breadth-first graph traversal on GPUs. In: Proc. of the Int'l Conf. for High Performance Computing, Networking, Storage and Analysis. 2015. 1-12.

Wang

Rong

Survey on technologies of distributed graph processing systems

Ruan Jian Xue Bao/Journal of Software 2018 29 3 569 586

10.13328/j.cnki.jos.005450

Wang TT, Rong CT, Lu W, et al. Survey on technologies of distributed graph processing systems. Ruan Jian Xue Bao/Journal of Software, 2018, 29(3): 569-586(in Chinese with English abstract). http://www.jos.org.cn/1000-9825/5450.htm[doi:10.13328/j. cnki.jos.005450]

王

童童

荣

垂田

卢

卫

分布式图处理系统技术综述

软件学报 2018 29 3 569 586

10.13328/j.cnki.jos.005450

王童童, 荣垂田, 卢卫, 等. 分布式图处理系统技术综述. 软件学报, 2018, 29(3): 569-586. http://www.jos.org.cn/1000-9825/5450.htm[doi:10.13328/j.cnki.jos.005450]

Zhang

Jia

Survey of state-of-the-art fault tolerance for distributed graph processing jobs

Ruan Jian Xue Bao/Journal of Software 2021 32 7 2078 2102

10.13328/j.cnki.jos.006269

Zhang CB, Li Y, Jia T. Survey of state-of-the-art fault tolerance for distributed graph processing jobs. Ruan Jian Xue Bao/Journal of Software, 2021, 32(7): 2078-2102(in Chinese with English abstract). http://www.jos.org.cn/1000-9825/6269.htm[doi:10. 13328/j.cnki.jos.006269]

张

程博

李

影

贾

统

面向分布式图计算作业的容错技术研究综述

软件学报 2021 32 7 2078 2102

10.13328/j.cnki.jos.006269

张程博, 李影, 贾统. 面向分布式图计算作业的容错技术研究综述. 软件学报, 2021, 32(7): 2078-2102. http://www.jos.org.cn/1000-9825/6269.htm[doi:10.13328/j.cnki.jos.006269]

Wang YZH, Davidson A, Pan YC, et al. Gunrock: A high-performance graph processing library on the GPU. In: Proc. of the 21st ACM SIGPLAN Symp. on Principles and Practice of Parallel Programming. ACM, 2016. 11.

Li A, Song SL, Chen JY, et al. Tartan: Evaluating modern GPU interconnect via a multi-GPU benchmark suite. In: Proc. of the 2018 IEEE Int'l Symp. on Workload Characterization (IISWC). IEEE, 2018. 191-202.

Tran HN, Kim JJ, He BS. Fast subgraph matching on large graphs using graphics processors. In: Proc. of the Int'l Conf. on Database Systems for Advanced Applications. Springer, 2015. 299-315.

Busato

Bombieri

BFS-4K: An efficient implementation of BFS for kepler GPU architectures

IEEE Trans. on Parallel and Distributed Systems 2015 26 7 1826 1838

10.1109/TPDS.2014.2330597

Busato F, Bombieri N. BFS-4K: An efficient implementation of BFS for kepler GPU architectures. IEEE Trans. on Parallel and Distributed Systems, 2015, 26(7): 1826-1838.

Merrill

Garland

Grimshaw

High-performance and scalable GPU graph traversal

ACM Trans. on Parallel Computing 2015 1 2 14

Merrill D, Garland M, Grimshaw A. High-performance and scalable GPU graph traversal. ACM Trans. on Parallel Computing, 2015, 1(2): 14.

Djidjev

Chapuis

Andonov

All-pairs shortest path algorithms for planar graph for GPU- accelerated clusters

Journal of Parallel and Distributed Computing 2015 85 91 103

10.1016/j.jpdc.2015.06.008

Djidjev H, Chapuis G, Andonov R, et al. All-pairs shortest path algorithms for planar graph for GPU- accelerated clusters. Journal of Parallel and Distributed Computing, 2015, 85: 91-103.

Martinasso M, Kwasniewski G, Alam SR, et al. A PCIe congestion-aware performance model for densely populated accelerator servers. In: Proc. of the Int'l Conf. for High Performance Computing, Networking, Storage and Analysis. IEEE, 2016. 63.

Merrill D, Garland M, Grimshaw A. Scalable GPU graph traversal. In: Proc. of the ACM SIGPLAN Notices, Vol. 47. ACM, 2012. 117-128.

Narayanan D, Harlap A, Phanishayee A, et al. Pipedream: Generalized pipeline parallelism for DNN training. In: Proc. of the ACM Symp. on Operating Systems Principles (SOSP). 2019.

Wang GH, Venkataraman S, Phanishayee A, et al. Blink: Fast and generic collectives for distributed ML. In: Proc. of the 3rd MLSys Conf., arXiv: 1910.04940, 2020.

Wang

Zhang

Wang

Memory system optimization for graph processing: A survey

Scientia Sinica Informationis 2019 49 3 295 313

10.1360/N112018-00281

Wang J, Zhang L, Wang PY, et al. Memory system optimization for graph processing: A survey. Scientia Sinica Informationis, 2019, 49(3): 295-313(in Chinese with English abstract). [doi:10.1360/N112018-00281]

王

靖

张

路

王

鹏宇

面向图计算的内存系统优化技术综述

中国科学: 信息科学 2019 49 3 295 313

10.1360/N112018-00281

王靖, 张路, 王鹏宇, 等. 面向图计算的内存系统优化技术综述. 中国科学: 信息科学, 2019, 49(3): 295-313. [doi:10.1360/N112018-00281]

Wang

Grus: Toward unified-memory-efficient high-performance graph processing on GPU

ACM Trans. on Architecture and Code Optimization (TACO) 2021 18 2 1 25

Wang P, Wang J, Li C, et al. Grus: Toward unified-memory-efficient high-performance graph processing on GPU. ACM Trans. on Architecture and Code Optimization (TACO), 2021, 18(2): 1-25.

Stanford large network dataset collection. https://snap.stanford.edu/data/soc-LiveJournal1.html

9th DIMACS implementation challenge. http://www.dis.uniroma1.it/challenge9/download.shtml

Karlsruhe Institute of Technology. http://i11www.iti.uni-karlsruhe.de/resources/roadgraphs.php

Cha M, Haddadi H, Benevenuto F, et al. Measuring user influence in Twitter: The million follower fallacy. In: Proc. of the 4th Int'l AAAI Conf. on Weblogs and Social Media (ICWSM), 2010. 10-17.