基于Linux/UNIX的机群监控系统的关键技术的研究与实现

被引量 : 0次 | 上传用户:lovemy521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
迅速发展的PC机、工作站和高速网络系统,使高性能超级计算机从高端大型机向计算机机群发展。但是,机群系统因其结构松散、节点独立性强等原因会导致维护困难。国际上流行的方式是在节点机的操作系统之上建立一层机群管理系统。机群监控系统是机群管理系统中的重要组成部分,其基本任务是监控机群系统的各个性能指标,在系统发生异常时提供报警/预警信息。国内外已有机群监控系统虽具有丰富的功能和良好的性能,但仍存在普遍的不足:(1)大部分机群监控系统采用C/S架构,在节点软件发生异常时,监控系统将无法获取该节点的监控信息;(2)未充分利用监控信息预测系统的异常;(3)在无人值守的情况下,在某个节点发生异常时,虽然有些监控系统已提供电子邮件或短消息报警功能,但无法判断系统管理员是否已收到报警信息。作者在对现有几个典型机群监控系统研究分析的基础上,设计了基于C/M/S的三层通信模型和半异步通信协议,对机群监控系统进行了总体设计,并实现了数据采集器、流数据挖掘器和短消息收发器等模块,从而实现了基于Linux/UNIX的机群监控系统ACMS(Automatic Cluster Monitoring System)。本文的主要特色和创新之处为:(1)通过实现Telnet协议,可获得与服务器端软件失效的节点的通信,并采集该节点的监控信息。(2)提出了将流数据挖掘技术应用于机群监控系统中,设计了流数据挖掘算法,用以预测机群系统将来时间可能发生的异常和发生异常的概率,并根据预测结果进行预警。(3)设计了短消息报警/预警系统和系统管理员之间的人机交互协议,使监控系统在无人值守时具有判断系统管理员是否获悉报警/预警信息的功能,并且具有重发短消息的功能,从而提高了报警/预警系统的可靠性。本文对ACMS的主要模块——数据采集器、流数据挖掘器和短消息收发器进行了测试,验证了它们的可行性和功能。ACMS中的各模块实现了预定的功能,弥补了现有机群监控系统存在的几个不足之处,提高了机群监控系统的可靠性,使其向智能化方向迈进。本文研究实现的ACMS已首次运行于对上海华虹集团计通智能卡系统有限公司所研发和维护的上海轨道交通3号线、4号线和5号线的AFC(自动售检票)系统的中央计算机系统服务器的监控上。其中用于预警的流数据挖掘模块需要大量真实数据进行反复测试和验证,因此还处于测试阶段。运行实践表明,ACMS性能稳定,能可靠地实现监控报警功能。
其他文献
对使用各种商业切割机对高精度印刷电路板进行切割时可能形成应变的不同原因加以分析,指出应变在电路板产量和产品可靠性方面造成的必然影响;同时以T-W37型印刷电路板切割机
中国经济不断发展对装备制造业技术创新与结构升级提出了迫切要求。随着起重机逐渐地向大吨位和大起升高度方向发展,起重机结构优化设计研究日益受到国内外学者及相关企业广泛
听是四种基础语言能力——听、说、读、写培养过程中最重要也是最难掌握的一种能力。据统计在人们日常交往中,听的比例占交际活动的45%。我国加入WTO后,随着与世界交往的日益
目的探索手术室护理路径对腹腔镜手术护理效果及对患者应激反应的影响。方法选取2016年1月~2017年1月腹腔镜手术患者82例作为研究对象,将其随机分为对照组和观察组,各41例,且
近年来,随着温室气体体积分数不断上升,研究CO2和O3体积分数升高对植物的影响已取得一定进展,但二者对植物的复合作用及生理研究不够深入。文章利用开顶式气室研究了大气CO2
新媒体爆发式发展使得大学生思想引领方式发生了深刻变革。目前,部分高校团属新媒体不了解大学生需求、不回应大学生关切,呈现竞争性不强、话语权不足、精准性不够等问题,难
基于饱和土的Biot波动方程和边界条件,利用Fourier变换和Galerkin法推导出频域内的u-w格式的2.5维有限元方程。把轨道视为饱和地基上的Euler梁,通过沿轨道方向的波数变换将三
陆俨少是一位寓诗、书、画于一炉的诗意画大家。他最喜爱用杜甫诗意来作画,作品以《杜甫诗意百开巨册》(1962年及1989年作)最为突出,有百张之多。本论文旨在通过对陆俨少的《杜
农民创业是农民依托家庭组织或者创建新的组织,通过投入一定的生产资本,依托农村,通过扩大现有的生产规模或者从事新的生产活动开展一项新的事业以实现财富增加并谋求发展的
设计源于生活,设计是对生活的艺术提炼。生活中最让人感动的往往是那些不经意间充满亲情的细微之处,设计也是如此,其最精华的部分常常在于细部,最能打动人的通常也是那些充满人性