论文部分内容阅读
随着Internet技术的飞速发展和广泛应用,一种新的计算模式—网格计算蓬勃发展起来。网格作为基于Internet的协同资源共享和问题求解环境,推动Internet发展到了新的阶段。在网格这种广域分布、普遍异构的计算环境中进行协同资源共享和问题求解需要解决许多挑战性的问题。其中之一就是在资源故障发生较频繁的情况下,如何保证网格的高可用性和高可靠性。本文的研究聚焦于计算网格,在分析计算网格高可用性问题特殊性的基础上,围绕如何在网格中间件GT上为应用提供高可用性和容错性,研究了计算网格高可用关键技术,包括进程迁移和检查点。本文主要创新工作包括:(1)提出了基于GT的高可用服务层体系结构(High Availability Service Layer of Architecture based on Globus Toolkit, HASLA),主要包括进程迁移、检查点数据管理和资源备份。该体系结构是在对计算网格工程与科学计算需求分析的基础上提出的,在兼顾性能及服务质量的同时,力求高可用性和容错性。(2)借鉴了检查点和进程迁移两种高可用技术,提出了基于检查点的进程迁移模型(Process Migration Model based on Checkpoint, PMMC),并且从检查点的设置、进程状态转储、进程状态迁移和进程恢复四个方面详细地阐述了模型的过程。该模型为网格系统的运行提供了高可用性和容错性,有效地平衡了节点负载,提高了节点的利用率和吞吐量。(3)通过分析经典的进程迁移算法,结合了检查点设置策略,改进了一种类似File Server的基于检查点的进程迁移算法,并在网格实验平台上进行性能测试。实验结果表明,该算法有效地减少了迁移的冻结时间,消除了残余依赖,为系统提供了实时性和容错性。