摘要:容错调度是调度问题中一个重要的研究内容,是提高系统可靠性的有效手段.目前已有很多集群系统时任务的容错调度算法,但是这些算法都没有考虑到任务的QoS 需求问题.提出了一种异构集群系统中具有QoS 需求的实时任务容错调度算法FTQ(fault-tolerant QoS-based scheduling).该算法采用主版本/副版本(primary/backup, 简称PB)技术,综合考虑了任务的时间限制、任务的QoS 需求、系统的可靠性和系统资源的利用率,能够自适应地根据系统负载情况动态地调整任务的QoS 级别和副版本的执行模式,从而提高了系统的灵活性、可靠性、可调和资源的利用率.对系统的可靠性进行了定量分析,并将其引入到容错调度算法中,提高了系统的可靠性.同时,度过程中尽量提前主版本的开始时间,推迟副版本的开始时间,以使任务的副版本采用被动执行模式或者使任版本和副版本的重叠部分尽量少,提高了资源的利用率.此外,采用了副版本重叠技术,并分析了副版本的最晚时间及其约束条件,提高了任务的调度成功率.通过大量的模拟实验,对FTQ,NOFTQ 和DYFARS 算法进行了.实验结果表明,FTQ 算法的性能优于其他方法,具有更好的调度质量.