一种集群监控容错系统的设计与实现

来源 :电子科技大学 | 被引量 : 2次 | 上传用户:yuerenqiu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,集群技术是当今高性能计算系统的一个重要研究方向,集群系统以其高性价比、高扩展性、高可用性的特点,迅速发展成为高性能计算的一个重要解决方案,在石油物探行业得到广泛应用。本文所研究的是面向地震数据处理的应用集群系统,随着该集群中节点的数目和提交运行的作业数目越来越多,集群系统的监控和管理成了一个重大问题。伴随集群系统规模的不断扩大,系统发生故障的概率也随之增长,加上地震数据处理作业往往数据量都很大,作业执行时间也很长,如果发生故障造成作业运行失败,将会浪费大量的系统计算资源和时间资源。因此研究该应用集群系统的容错技术具有十分重要的意义。本文研究设计的集群监控容错系统是该地震数据处理应用集群系统的重要支持系统,是专门针对地震数据处理特点开发的特殊辅助系统。针对上文提出的相关问题,本论文的主要工作包括:第一,研究了现有的集群监控系统,设计并实现了面向地震数据处理平台集群系统的监控模块,完成了对整个应用集群系统的监控信息的采集、汇聚和显示等应用的具体实现。监控模块主要包括对集群节点信息和作业信息的监控,为系统管理员和用户进行集群管理和监控提供了方便。第二,设计并实现了利用心跳包技术进行节点故障检测的集群系统容错功能,并且针对该地震数据处理的具体应用完成了节点故障后续处理的相关工作。该集群节点故障检测和处理的功能为本文设计的利用应用级作业检查点实现作业故障容错功能提供了基础。第三,在研究现有检查点技术的基础上,并且针对地震数据处理作业的特点和地震数据处理流程的特殊性,设计并实现了基于地震数据单元的应用级作业检查点设置与回卷恢复功能,该功能结合节点容错功能,能够实现集群作业出现故障后的自动容错。通过实验测试验证了该应用级作业检查点的可行性,提高了集群系统的可用性,能够使作业在遇到故障时从检查点开始继续执行作业,减少了作业重复执行时间,避免了系统大量的计算资源和时间的浪费。
其他文献
岩画艺术研究取得的最重要的进展之一就是:考古学家们承认岩画艺术通常对原住民社区来说具有文化意义,并且此种文化意义在世世代代的原住民社区具有连绵不断的持续性.有些地
以数字信号处理器为基础的实时数字信号处理技术在正迅猛发展,现在已经广泛应用于图像处理、语声处理、智能化仪表、生物医学工程、通信、自动控制领域.该论文研究高速数字处
具有优良相关性,大线性复杂度,平衡性,长周期的伪随机序列广泛应用于CDMA系统,扩跳频通信系统。相控序列是一种新的性能优越的伪随机序列。长为(2n-1)2的相控序列线性复杂度不小于n
ITU-T建议Rec.G.723.1是国际电信联盟(ITU)最新颁布的一种适用于多媒体通信的低比特率语声编码器标准。本文在分析G.723.1建议的系统模型及编解码算法后,提出了用软件来进行语
由于合成孔径雷达的全天候的高分辨力,近年来得到了快速的发展.合成孔径雷达由于其观测范围广,还融合了近代的计算机技术和先进的数字信号处理技术,在许多领域,如大地遥感、
该课题的目的是设计一种具有便携、小型化、低功耗等特点的管道漏水探测仪.该探测仪利用紧贴地面的探头获得供水管道的流水声及漏水声,经放大、滤波等处理手段送往听音用耳机
在椭圆曲线密码体制中,一个主要的问题就是安全椭圆曲线的选取问题,如果选取的椭圆曲线本身是不安全的,那么基于该椭圆曲线的任何方案都是不安全的。由于在相同的安全强度下,ECC
智能交通系统(ITS)作为城市交通控制和人车控制系统可以有效地提高城市交通效率,减少汽车数量高速增长所带来的诸多交通安全问题,目前虽然还没有完整的ITS体系,但其中的城市交通