【摘 要】
:
随着高性能计算技术的飞速发展,高性能计算(High Performance Computing,HPC)系统的中组件的数量和规模的急剧增大,系统的平均故障间隔时间(Mean Time Between Failure,MTBF)
论文部分内容阅读
随着高性能计算技术的飞速发展,高性能计算(High Performance Computing,HPC)系统的中组件的数量和规模的急剧增大,系统的平均故障间隔时间(Mean Time Between Failure,MTBF)也随之大幅降低,严重影响了系统的可靠性。因此,为HPC配备自主容错能力至关重要。检查点和回卷(Checkpoint/Rollback,C/R)技术是HPC中广泛采用的自主容错手段。但是,C/R技术通常会带来巨大的I/O开销,已经不能满足HPC应用的需求。进程迁移是一种主动式的自主容错机制,是对C/R技术的扩充,将即将失效节点上运行的进程传输到备用节点上,从备用节点恢复这些进程。首先,本文研究了国内外HPC系统自主容错机制的发展现状,分析了广泛使用的检查点和回卷技术与进程迁移机制。其次,为了在基于InfiniBand的多核HPC系统上,对MPI并行程序执行检查点和卷回操作,本文深入研究了传统的C/R框架和InfiniBand信道架构,扩展了传统的C/R框架,提出了一个基于FTB(Fault Tolerance Backplane)的C/R框架。在此基础上,本文设计并实现了一种基于FTB的进程迁移机制,采用FTB作为容错控制消息通信框架,实现进程迁移过程中的容错控制消息传递,提高了开源MPI实现的容错能力。此外,本文还分析了进程迁移过程中各阶段的开销情况,针对检查点数据写入和传输阶段的高开销问题,设计了一个进程迁移协议,缩短了进程迁出即将失效节点的时间,提高了HPC系统主动容错的性能。
其他文献
随着全世界人均生存空间的不断减少,人类发明了各种设备来扩展生存空间,其中最具有代表性的机械便是盾构机。盾构机是一种具有多系统、多驱动源的复杂大型隧道掘进装备。但是由于它的结构比较复杂、工作环境相对比较封闭,盾构机在工作过程中极易发生各种故障,封闭的结构让盾构机的修理工作及其困难。由此,需要一种可以在第一时间甚至在故障发生前便能预测故障发生部位的方法,来提高工作效率,减少经济损失。本文将神经网络与盾
目的:本研究将探讨IFITM3和miR-29a在HCC中的表达情况,及两者对肝癌细胞生物学行为的影响,以及IFITM3和miR-29a之间相互作用关系。方法:运用免疫组化(immunohistochemistry,I
塞缪尔·佩皮斯(Samuel Pepys)是斯图亚特王朝复辟时期的官吏,他于1660至1669年期间的日记是近代早期英国突出的私人日记,在文学和史学领域有着重要的研究意义。佩皮斯担任过
复进簧是自动武器中吸收并存储枪机活动组件后坐能量,通过释放储能使活动组件在复进过程中完成一系列机构动作的关键部件。复进簧在工作过程中受到复杂的交变冲击载荷,疲劳失
目的对肺间质纤维化的干血理论假说进行预探索,通过理论研究归纳形成肺间质纤维化干血判断标准假说,通过采集、分析血瘀证肺间质纤维化患者的临床资料,验证血瘀程度与肺间质纤维化患者病情严重程度的关系;并对干血判断标准内容进行检验,探求“血瘀”和“干血”的联系与区别以及“干血”对肺间质纤维化的特殊意义。背景肺间质纤维化的发病率和死亡率在全球范围内不断升高,危害人类健康。中医药对本病具有独到的见解和明确的疗效
随着计算机网络与多媒体技术的快速发展,视频图像作为一种直观、形象的数字媒体。但由于摄像平台的不稳定,会导致采集的视频图像不稳定,为视频的后期处理带来了严重影响。因
随着科技的发展,互联网行业得到了高速发展,国家也大力发展互联网+,其中大型服务架构,服务器集群,云计算,电子商务,社交通信等成为了科技领域最热门的话题,这些技术的发展,带
背景:慢性心力衰竭是心脏收缩功能不全引起器官、组织灌注不足为临床表现的一种综合征,其中,心脏再同步治疗(Cardiac resynchronization therapy,CRT)是慢性心力衰竭合并左右
目前,我国不仅各类高校升学,甚至是很多企业或是工作单位都把考试做为选拔人才的重要方法之一,同时,考试也被广泛用于就职以后员工的考核。随着计算机及网络技术的飞速发展,I
人体行为识别(Human Activity Recognition,HAR)是指对被观测个体的动作类型、行为模式等信息进行综合地分析与识别,并将识别结果通过自然语言等方式进行描述。由于HAR系统能