论文部分内容阅读
由于机群具有低成本、易管理、易扩展等优势,在高性能计算领域中机群架构所占的份额越来越大。机群性能的提高以节点规模的扩张为代价,因此,人们对计算能力的不断追求同时带来了故障增加,可用性降低的问题。传统的机群容错技术在解决上述问题时存在一定的局限,本文另辟蹊径,利用时下非常热门的虚拟化技术进行机群容错的研究,提出了主动容错策略。
主动容错策略区别传统机群容错技术的被动容错策略,利用不影响业务运行的虚拟化实时迁移技术,在告警模块告知硬件故障潜在威胁的情况下,分析告警原因,并根据整个系统的运行状态选择合适的物理节点实施迁移,将故障隐患节点上虚拟机迁移到安全节点上,从而在故障产生之前避免了可能的故障带来的影响。另一方面,用户可以提交硬件维护和升级需求,由管理模块告知主动容错策略实施待维护节点的虚拟机转移,避免了由于硬件维护导致的业务中断。计算节点的资源长期不足的情况可能导致软件效率的下降甚至软件的崩溃,针对这一情况,主动容错策略利用虚拟机资源可以动态调整的灵活特点,设计了全局资源动态重组的子策略。这一子策略在一定程度上缓解了资源不足的情况,因而间接上为潜在故障的减少有所裨益。
本文研究的主动容错策略聚焦于提升系统的可用性,因此在策略的设计之后本文使用了几组大规模机群的故障数据,考察在实施主动容错策略之后的可用性提高情况,验证了该策略的有效性和意义。