论文部分内容阅读
近些年来,人们对计算机处理性能的要求越来越高,单个服务器已经逐渐不能满足用户的需求,而超级计算机的价格非常昂贵,相比之下,集群系统具有高性价比、高可用性、高扩展性的特点,因此逐渐成为了高性能计算的主流。集群系统是通过高速网络互连起来的一组计算机,它们作为一个整体为用户提供应用服务。石油勘探就是一个需要进行海量数据处理的行业,具有计算数据量大,算法复杂的特点,对高性能计算的需求也是与日俱增。集群资源管理系统的主要任务是对集群中的各种资源进行统筹管理,通过提高系统资源利用率使系统达到更高的性能。本文所研究的集群资源管理系统是川庆石油物探公司地震数据处理解释系统的关键支撑系统,为针对地震数据处理特点开发的专用系统。本系统根据用户需求对集群资源进行统一管理,通过对用户提交作业的合理分配,使系统资源得到高效利用,从而提高系统的工作效率。本系统主要实现了以下功能:(1)实现了对服务器与计算节点中资源对象的管理。服务器对整个集群系统中所有计算资源进行统一管理,包含集群中所有的节点信息与作业信息;计算节点对此节点上的计算资源进行管理,包含此节点上的资源信息与作业信息。(2)根据地震数据处理的特点和实际项目中的软硬件需求,在通用调度算法基础上设计出了适合本系统的调度策略。为了方便调度算法的替换和降低服务器对各种请求的响应时间,本系统将服务器对象管理进程和调度进程分开进行设计,实现了多种作业调度算法,并考虑了系统间的负载均衡与资源预留策略。(3)为了保证系统持续、可靠地提供服务,减少由于集群中服务器或计算节点故障而造成的损失,设计并实现了服务器的双机热备功能及节点的故障处理功能,完成了服务器重要数据的备份与恢复工作和故障节点上未完成作业的转移。本系统采用了客户端/服务器设计模型,客户端只需要同服务器进行通信,服务器对整个集群资源进行统一管理。在驱动模式上采用了事件驱动模式,集群中各节点的运行取决于所收到的事件消息,同时为了方便系统的升级,系统设计中考虑了减少各模块间的耦合性。