【摘 要】
:
随着超级计算机的规模不断扩大,体系结构日益复杂,系统可靠性的要求也急剧增高,使得与可靠性紧密相关的系统故障预测和研究面临着极大的挑战。超级计算机系统中的故障一般具有瞬时性、多样性以及不确定性,这些因素对故障信息采集、故障预测以及容错提出了更高更复杂的要求。由高效的数据采集能力和快速准确地数据分析能力所构成的数据预处理技术,为面向超算系统的容错技术提供了强大的数据保障。于此同时,E级系统中单个科学计
论文部分内容阅读
随着超级计算机的规模不断扩大,体系结构日益复杂,系统可靠性的要求也急剧增高,使得与可靠性紧密相关的系统故障预测和研究面临着极大的挑战。超级计算机系统中的故障一般具有瞬时性、多样性以及不确定性,这些因素对故障信息采集、故障预测以及容错提出了更高更复杂的要求。由高效的数据采集能力和快速准确地数据分析能力所构成的数据预处理技术,为面向超算系统的容错技术提供了强大的数据保障。于此同时,E级系统中单个科学计算应用所产生的最大数据规模将从TB级别增长到PB级。而大规模数据采集时要求更高的聚合带宽来降低延迟以增强实时性,因此实时数据采集很容易产生大量的突发性I/O请求。这样的数据密集型应用和突发性I/O可能成为影响系统I/O性能的最大瓶颈,从而影响故障数据采集的效率。与此同时,I/O性能降低也将影响超算系统容错的执行效率。本文针对超级计算机系统可靠性问题以及与之紧密相关的I/O问题,以保障大规模应用在超算系统高效运行和提高I/O密集型应用的存储利用效率为目标,对故障数据预处理技术、容错技术以及与之相关的I/O问题展开了多方位较深入的研究和实验分析,取得的主要成果如下:设计和优化了面向超算系统的故障数据预处理技术。首先,针对当前系统规模不断增大,数据采集效率较低的情况提出了面向超级计算机系统的实时数据采集框架。实时数据采集框架由数据采集器、H2FS和分布式数据采集管理器组成。针对超算系统中可能产生突发性I/O的复杂应用环境,通过加入高效的H2FS为整个采集框架提供了高性能和高可用性的支持。其次,针对运行时应用相关性能信息收集不完整的问题,优化了用来收集和分析典型应用性能特性的性能分析工具的功能,丰富了实时数据采集框架中的采集数据类型。再次,为了提高系统故障分析和诊断的准确性和时效性,提出了基于离线预处理的在线日志模板提取方法。该方法由两部分组成:第一部分,通过对现有离线日志模板技术的研究和分析,设计了一种针对天河超级计算机的离线日志模板提取流程;第二部分,采用我们设计的实时故障数据采集框架,在存储中间层当中快速增量式的在线分析日志。然后将整个设计融入到数据预处理模块当中与实时数据采集模块联合运行。最后,实验结果表明该框架具有较高的性能和较好的可扩展性,同时验证了基于离线预处理的在线日志模板提取方法的准确性,以此证明面向超算系统的故障数据预处理技术的可用性。针对大规模应用在运行时遇到系统故障可能性增大以及涉及的失效节点数量更多的问题,在XOR的检查点/恢复容错方法的基础上,提出了基于多维度XOR的检查点/恢复容错技术。系统的频繁失效会使得那些在超级计算机平台上长时间运行的任务的完成时间大大髙于任务原本所需的执行时间。而传统检查点/恢复技术在恢复所需的时间成本和恢复所需的存储容量之间往往很难取得平衡。为了解决这些问题,我们提出了基于多维度XOR的检查点/恢复容错方法,并对基于数学函数库的容错框架进行了分析和讨论。通过多维度XOR的检查点/恢复容错方法对大规模并行应用进行容错操作,在不过度增加存储容量的情况下又能够较大程度的提高系统的可靠性。最后,通过实验验证了多维度XOR的检查点/恢复容错方法的有效性。为了解决超算系统中大量突发性I/O对系统性能以及容错效率的影响,提出了面向超算系统的存储负载管理模型SWMM。它可以在多个数据密集型应用并行访问文件系统时优化I/O路径,从而提高带宽效率。同时,优化了面向超级计算机存储系统的容量均衡策略,用于解决存储扩展中的容量不平衡问题。这些技术可以进一步提高应用运行的效率,同时一定程度上缓解了容错技术中I/O性能带来的影响。我们在天河-1A超级计算机上对SWMM进行了测试,实验结果表明,I/O路径优化和容量平衡策略达到了预期的效果,数据采集模块在小数据块传输中具有低开销和高传输效率。
其他文献
随着大数据时代的到来,网络空间的数据资源越来越丰富,其数据量已经远远超出了传统数据分析技术和信息系统的处理能力,寻求海量数据中的有效的信息已成为各领域的迫切需求。知识图谱以其语义网的本质,将客观世界存在的实体、关系、属性等概念以结构化知识的形式连接成庞大的网络,作为人类描述知识的重要载体,为大数据环境下的信息获取提供了便捷快速的解决方法。其中,人物实体作为信息交互的枢纽,往往在寻找目标知识的过程中
当今社会,无线通信为人们打开了俯瞰世界的视野,并逐步成为人们生活中密不可分的一部分。然而,随着社会的不断进步,无线通信的发展面临着诸多挑战。一方面,新兴概念如虚拟现实(virtual reality,VR)、物联网(Internet of things,Iot)、智能制造等的出现对无线通信的吞吐率、延迟、可靠性等方面均提出了新的更高要求。而另一方面,适合无线通信的频谱资源又非常有限。因此,增强对现
面对不断提高的卫星成像分辨率以及快速增加的在轨卫星,天基对地观测卫星系统获取数据的速度和总量都呈爆炸式增长。据报道,我国在轨卫星每天获取的对地观测数据高达数百个TB,而且增长势头强劲,这意味着对地观测大数据时代已经来临。当前,用户对卫星对地观测数据服务提出新要求。在时间分辨率上,用户急需卫星对地观测数据在获取、传输、处理和分发整个流程中的响应趋向近实时化;在空间分辨率上,用户需要卫星图像的分辨率高
在大规模分布式智能视频监控中,终端摄像头连续不断地向远程服务器发送所采集的视频数据,不仅需要较大的网络带宽和存储空间,而且网络传输延迟较大,面临采样视频压缩的严峻挑战。压缩感知能从基于少量采样点获取的测量值中重构原始数字信号,并在采样过程中完成数据压缩,非常适合于在智能监控终端完成高压缩率的监控视频采集。然而,目前的大部分压缩感知方法采用单一测量率进行压缩感知采样和重构,导致重构质量和采样压缩率的
软件是互联网生态重要组成部分,然而由于设计不当、开发失误等原因,软件中存在形式多样的漏洞,对软件安全乃至互联网安全带来严重安全隐患,不仅威胁个人隐私与财产安全,也对国家战略安全造成重大威胁。通过自动化手段挖掘软件漏洞,发现系统安全隐患并及时防护,是保证系统安全、稳定运行的必要手段。因此,软件漏洞自动化挖掘技术研究具有极高学术价值与现实意义。模糊测试是一种应用广泛的软件漏洞自动化挖掘技术。自其提出以
随着片上系统规模的不断扩大和处理核数的增多,系统对于片上Cache在容量和速度方面有了更高的要求。为了能够有效利用Cache资源,通常采用非一致Cache访问(NUCA)结构以支持高容量低延迟的Cache组织。另一方面,片上网络由于具备良好的可扩展性在片上众核处理器的互连方式上具有显著优势。因此,基于片上网络的非一致Cache访问体系结构逐渐成为未来众核处理器用于组织大容量Cache的主流系统架构
同时定位与建图(SLAM)是计算机视觉领域的重要问题,在无人驾驶、自主导航、成像制导、侦察等领域有着广泛应用。红外相机可以在夜间、雾霾、光照差的环境下成像,具有全天工作能力,因此红外SLAM比可见光SLAM的潜在应用场景更广。但是由于红外数据获取困难、图像纹理弱、信噪比低,国内外对红外SLAM的研究十分有限。本文以适用于红外成像的SLAM系统为研究目标,在研究过程中主要解决了红外相机标定、SLAM
云计算平台是支撑互联网应用服务和大数据处理不可替代的基础设施,已经广泛应用于人类的生产、生活和城市治理的方方面面,呈现出大量数据密集型应用和日益提高的多应用粘合度,这不断加剧了云计算平台的I/O压力。为了支持应用迁移,提高云服务可靠性,云计算平台中的虚拟机使用分布共享存储资源来存储其关键数据。共享存储通过内部网络(如以太网)互连,大数据量存取的带宽可超过单磁盘带宽,但是,在小量数据存取时,延迟大,
基于计算机视觉的自动图像分割是机器辅助医疗图像分析任务中至关重要的步骤。自动且快速地获取具有准确分割掩码的医疗图像,对于帮助医生提高诊断精度、速度以及针对不同病人提供个性化的治疗方案具有重要的意义,针对该技术的研究也是当前科研领域的热点方向。在所有的研究问题当中,由于受到医疗图像独有的对比度低、噪声大、伪影多、内存占用量大以及获取标注信息困难等特性的影响,表示学习成为了提高医疗图像分割性能的核心方
随着5G、物联网、云计算的发展和行业数字化进程的深入,互联网流量爆炸式增长,网络应用也日趋复杂化和多样化,要求网络设备不仅具备极高的处理性能,还应具有极好的灵活性,能够提供面向新型协议、业务的快速定制及优化能力。然而,网络处理器作为网络设备的核心处理单元,采用通用多核或者专用多核的实现方式,难以同时兼备极高的处理性能和良好的灵活性。基于通用多核实现的网络处理器虽然具有极好的灵活性,但存在报文处理吞