【摘 要】
:
高性能服务器的应用领域越来越广,目前已经广泛应用于银行、军事、航天、气象服务等领域。在这些领域中,高性能服务器都是用来处理关键的业务,系统数据丢失或者异常停机都会
论文部分内容阅读
高性能服务器的应用领域越来越广,目前已经广泛应用于银行、军事、航天、气象服务等领域。在这些领域中,高性能服务器都是用来处理关键的业务,系统数据丢失或者异常停机都会造成严重的后果。因此对高性能服务器的可用性提出了很高的要求。高可用性需要高效的故障检测、故障诊断、故障恢复等技术来实现。高性能服务器一般都采用集群的形式实现,因为集群在价格、可扩展性等方面都要比其他形式的系统有明显的优势。本文主要针对高性能集群服务器系统研究一种基于操作系统的快速高效的故障诊断方法。从系统可以提供不间断服务的角度出发,研究针对故障诊断的系统监控方法,即故障监控方法。在故障监控的基础上,研究故障诊断的方法。目标是尽可能小的系统开销,尽可能大的故障检测覆盖率。实现了服务级和节点级的诊断粒度。整个诊断从流程上分为故障监控和故障诊断,从实现的诊断粒度上分为了单机故障诊断和系统级故障诊断。能够监控到节点的硬件状态信息,如CPU、内存、网络设备、电源等;能够监控基于linux的操作系统中的各种进程的信息,包括核心系统服务进程,用户配置的进程等。从可用性角度设计了针对不同监控信息的诊断规则,实现了单机故障的快速诊断。对整个集群系统设计了心跳模块以及系统级的故障诊断。通过设计的心跳机制可以确定其他节点是否故障。通过单机故障诊断和系统级故障诊断的配合能够快速的诊断出故障的节点,达到集群中所有节点对故障状态的一致性描述。通过整个诊断系统,能够准确及时的获得诊断结果,及时的将故障节点隔离出系统,进而提高系统的可用性。
其他文献
随着异构多核处理器的快速发展,异构多核系统中的任务调度成为研究热点。目前,适用于普通任务集调度的算法在调度细粒度任务集时,存在处理器负载失衡,处理器空闲时间多,并行性差和
随着移动机器人应用范围的扩大,其工作环境也日益复杂,往往是非结构化的、部分或全部未知的。局部路径规划侧重于使用传感器实时感知环境信息,使其能适应复杂的工作环境,及时有效
近年来,深度学习在计算机视觉,机器翻译,语音识别等领域取得了极大的成功,在多个应用领域上取得了当前的最好成绩。但是这些模型所取得的高精确度主要来源于在训练以及检测时
随着近几年来人工智能的飞速发展,我们越来越想检验一下机器能达到一个什么样的智能水平。为此,国家在2015年启动了“高考答题机器人”的相关项目研究,而自动解答高考作文题
在半导体业界,集成电路SoC (System on Chip,片上系统)成为目前主导的设计技术。SoC通常将微处理器、模拟IP核、数字IP核和存储器(或片外存储控制接口)集成在单一芯片上,通过
随着Internet的迅速发展,用于网络互联的主干链路上的核心路由器的接口速率达到100Gbit/s。这就要求骨干路由器每秒可以转发千万以上的分组,然而分组转发的关键是查找路由表,
随着存储硬件成本的不断降低,大数据生态系统的复杂变化,计算框架与存储系统的多样性和异构性发展,基于内存的分布式文件系统,数据库等一系列产品孕育而生,用来整合整个大数
企业应用得益于那些具有丰富语义的企业知识,本体能为知识管理系统中各种符号提供共享的概念模型且在其中的应用越来越广泛。随着本体规模的增大,本体构建工具对于本体开发过
近年来,视频分享网站、IPTV数字电视、手机电视、视频监控等视频类服务大量涌现,H.264作为目前最先进的视频压缩技术,其出色的网络亲和性使得H.264在上述领域得到广泛应用。
在无线传感器网络中,传感器节点的位置信息对于实际应用来说是非常重要的,比如在事情监测中,当事情发生时需要知道它所发生的位置,这个时候就需要知道传感器节点的位置信息,