超级计算环境容错机制
DOI:
CSTR:
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:

国家高技术研究发展计划(863)(2011AA01A205);中国科学院知识创新工程青年人才领域项目(CNIC_QN_10004);中国科学院青年创新促进会基金


Fault-Tolerant Mechanism in Supercomputing Environment
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    中国科学院超级计算环境是整合了包括总中心、分中心和所级中心计算资源的3层架构超级计算环境.为提升超级计算环境的可靠性,提供稳定、可靠的计算服务,其容错机制的研究成为超级计算环境的一个研究重点.在对容错基本思想及各类计算机容错技术进行充分调研的基础上,提出一种适用于超级计算环境的容错框架,依据该框架给出了不同层次的容错方案,并对不同层次的容错开销进行了分析和比较,验证了不同层次容错方案对应用程序所带来的影响.

    Abstract:

    The three layers supercomputing environment of Chinese Academy of Sciences is built to integrate the computing resources of the head center in Beijing, eight regional centers and several campus-level centers. To enhance the reliability of the supercomputing environment and provide stable and reliable computing services, the fault-tolerant mechanism research has become a research priority of the supercomputing environment. In this paper, the fault-tolerant basic concepts and computer fault-tolerant technologies are introduced at first. Next, a fault-tolerant framework of the supercomputing environment is proposed. Then the fault-tolerant solutions of different levels based on the framework and the performance test results in Deepcomp 7000 are presented. Finally, the fault-tolerant overheads of different levels are compared and analyzed to verify the impact on the application.

    参考文献
    相似文献
    引证文献
引用本文

赵毅,曹宗雁,朱鹏,迟学斌.超级计算环境容错机制.软件学报,2013,24(S2):89-98

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2012-08-05
  • 最后修改日期:2013-07-22
  • 录用日期:
  • 在线发布日期: 2014-01-02
  • 出版日期:
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号