论文部分内容阅读
迅速发展的PC机、工作站和高速网络系统,使高性能超级计算机从高端大型机向计算机机群发展。但是,机群系统因其结构松散、节点独立性强等原因会导致维护困难。国际上流行的方式是在节点机的操作系统之上建立一层机群管理系统。机群监控系统是机群管理系统中的重要组成部分,其基本任务是监控机群系统的各个性能指标,在系统发生异常时提供报警/预警信息。国内外已有机群监控系统虽具有丰富的功能和良好的性能,但仍存在普遍的不足:(1)大部分机群监控系统采用C/S架构,在节点软件发生异常时,监控系统将无法获取该节点的监控信息;(2)未充分利用监控信息预测系统的异常;(3)在无人值守的情况下,在某个节点发生异常时,虽然有些监控系统已提供电子邮件或短消息报警功能,但无法判断系统管理员是否已收到报警信息。作者在对现有几个典型机群监控系统研究分析的基础上,设计了基于C/M/S的三层通信模型和半异步通信协议,对机群监控系统进行了总体设计,并实现了数据采集器、流数据挖掘器和短消息收发器等模块,从而实现了基于Linux/UNIX的机群监控系统ACMS(Automatic Cluster Monitoring System)。本文的主要特色和创新之处为:(1)通过实现Telnet协议,可获得与服务器端软件失效的节点的通信,并采集该节点的监控信息。(2)提出了将流数据挖掘技术应用于机群监控系统中,设计了流数据挖掘算法,用以预测机群系统将来时间可能发生的异常和发生异常的概率,并根据预测结果进行预警。(3)设计了短消息报警/预警系统和系统管理员之间的人机交互协议,使监控系统在无人值守时具有判断系统管理员是否获悉报警/预警信息的功能,并且具有重发短消息的功能,从而提高了报警/预警系统的可靠性。本文对ACMS的主要模块——数据采集器、流数据挖掘器和短消息收发器进行了测试,验证了它们的可行性和功能。ACMS中的各模块实现了预定的功能,弥补了现有机群监控系统存在的几个不足之处,提高了机群监控系统的可靠性,使其向智能化方向迈进。本文研究实现的ACMS已首次运行于对上海华虹集团计通智能卡系统有限公司所研发和维护的上海轨道交通3号线、4号线和5号线的AFC(自动售检票)系统的中央计算机系统服务器的监控上。其中用于预警的流数据挖掘模块需要大量真实数据进行反复测试和验证,因此还处于测试阶段。运行实践表明,ACMS性能稳定,能可靠地实现监控报警功能。