主页期刊介绍编委会编辑部服务介绍道德声明在线审稿编委办公编辑办公English
2018-2019年专刊出版计划 微信服务介绍 最新一期:2019年第10期
     
在线出版
各期目录
纸质出版
分辑系列
论文检索
论文排行
综述文章
专刊文章
美文分享
各期封面
E-mail Alerts
RSS
旧版入口
中国科学院软件研究所
  
投稿指南 问题解答 下载区 收费标准 在线投稿
徐新海,杨学军,林宇斐,林一松,唐滔.一种面向CPU-GPU 异构系统的容错方法.软件学报,2011,22(10):2538-2552
一种面向CPU-GPU 异构系统的容错方法
Fault-Torlerance Method for CPU-GPU Heterogeneous System
投稿时间:2010-04-28  修订日期:2011-05-18
DOI:10.3724/SP.J.1001.2011.04058
中文关键词:  GPGPU  异构系统  容错  Lazy 策略  检查点
英文关键词:GPGPU  heterogeneous system  fault-tolerance  Lazy strategy  checkpointing
基金项目:国家自然科学基金(60921062, 60873016)
作者单位E-mail
徐新海 国防科学技术大学 计算机学院 并行与分布处理国家重点实验室,湖南 长沙 410073 xuxinhai@nudt.edu.cn 
杨学军 国防科学技术大学 计算机学院 并行与分布处理国家重点实验室,湖南 长沙 410073  
林宇斐 国防科学技术大学 计算机学院 并行与分布处理国家重点实验室,湖南 长沙 410073  
林一松 国防科学技术大学 计算机学院 并行与分布处理国家重点实验室,湖南 长沙 410073  
唐滔 国防科学技术大学 计算机学院 并行与分布处理国家重点实验室,湖南 长沙 410073  
摘要点击次数: 3271
全文下载次数: 3568
中文摘要:
      近年来,为了缓解日益严重的功耗问题,异构并行体系结构已成为超级计算机发展的一个重要趋势.图形处理器(graphics processing unit,简称GPU)凭借其超高的计算性能和性能功耗比,作为一种高效的加速部件已被广泛应用于高性能计算领域.但是,GPU 先天的可靠性缺陷势必加剧超级计算机的可靠性问题.目前,国际上关于CPU-GPU 异构系统容错技术的研究工作主要将GPU 从异构系统中独立出来,以每次调用为粒度对其进行容错处理.设计了一种面向CPU-GPU 异构系统的Lazy 容错方法,给出了基于编译指导命令的容错框架及其约束,并讨论了相关的编译实现和优化方法,最后通过实验验证了该方法的正确性.实验结果表明,与现有的容错方法相比,利用所设计的LazyFT 容错方法对GPGPU(general purpose computation on graphics hardware)程序进行容错处理,可以明显降低容错代价.
英文摘要:
      In recent years, heterogeneous parallel architecture has become an important development trend of supercomputer because it mitigates the problem of increasingly high power consumption. As a high performance and power efficiency accelerator, GPU (graphics processing unit) has been extensively used in HPC (high performance computing) area. However, the inherent unreliability of the GPU hardware deteriorates the reliability of supercomputer. Presently, most research of FT (fault-tolerance) techniques for CPU-GPU heterogeneous system isolates the GPU from the system, and does FT work for it at the granularity of a single GPU invocation. This paper proposes a new Lazy FT method for CPU-GPU heterogeneous system, introduces a FT framework and its constraints based on directives, and demonstrates the validity of the Lazy FT method. The experimental results show that, compared with existing FT methods, the cost of LazyFT is very cheap.
HTML  下载PDF全文  查看/发表评论  下载PDF阅读器
 

京公网安备 11040202500064号

主办单位:中国科学院软件研究所 中国计算机学会 京ICP备05046678号-4
编辑部电话:+86-10-62562563 E-mail: jos@iscas.ac.cn
Copyright 中国科学院软件研究所《软件学报》版权所有 All Rights Reserved
本刊全文数据库版权所有,未经许可,不得转载,本刊保留追究法律责任的权利