摘要:应用级checkpointing 是一种在大规模科学计算领域中备受关注的容错技术,该技术由用户程序员选择在适当的地方保存关键数据,从而降低了容错开销.选择合适的checkpointing 位置、减小全局checkpoint 保存数据量是优化应用级checkpointing 技术的关键问题.对于近年来推出的带有通用GPU 的异构系统上的应用级checkpointing 技术,也同样面临上述问题.针对异构系统体系结构和程序特征,对面向异构系统的应用级checkpointing 技术的检查点设置进行了静态分析,提出两套不同机制的检查点设置方法:同步及异步检查点设置方法,并分别就checkpointing 优化设置问题对其进行数学建模和求解.最后,通过实验验证并评估了所提出的两种方法的性能.