论文部分内容阅读
随着经济和科技的发展,生物医学、天气预报、高能物理等领域的计算任务越来越多,其特点是计算数据多、算法复杂、计算规模大、难度高。因此,计算机的可靠性和可用性变得越来越重要。尽管单台计算机的性能和可靠性越来越好,但是单台计算机难以完成某些现实要求。为此,人们想到用普通的PC机通过某种方式连接起来,形成一个高性能系统,这种系统叫做机群。机群不仅价格低廉,而且使用方便,对软件、硬件设备要求非常低,是替代昂贵的超级计算机的最好选择。机群技术就是将多台计算机组织起来协同工作,模拟一台功能更强大的计算机的技术,该技术能够提高系统可用性和可靠性。
作为高性能计算系统的一个分支,基于消息传递的Beowulf机群系统应用越来越广泛,它具有许多优点,例如:廉价、易管理、性价比高等。在本文中,我们利用实验室现有的硬件和软件资源,通过引入机群中间件技术架构,设计并实现了一种基于MPI和Linux的机群系统。
首先,本文详细研究了Linux机群的体系结构与功能,分析了现有的机群研究现状、并行计算编程模型以及消息传递机制,分析和阐述了基于MPI的Linux机群系统的基本原理、思想,及其组成结构和各个部分的主要功能,研究了并行计算和机群中间件的几种关键技术。
其次,在系统中,我们设计并实现了一个机群中间件,主要包括:计算节点的添加模块、资源管理模块、任务调度模块。通过实现机群中间件的各个功能模块,该系统具有网络负载测试功能、反映各节点负载动态变化的功能以及根据节点负载合理地分配任务的功能。这些研究和实现是当前并行计算系统研究的热点,为相关研究提供一些借鉴。
最后,在实验部分,我们使用了一个并行应用程序分别采用静态分配策略和本文中提出的任务调度策略来测试系统的可用性和健壮性。
实验表明,该机群系统具有良好的计算性能和快速的外部响应性能,能动态地反映机群性能参数的变化特征,具有简单、易扩展等特点。这些研究和实现是当前并行计算系统研究的一个热点课题,并为相关研究提供了一些新的思想和方案。