面向纠删码存储数据恢复的IO调度技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:barbaraxj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分布式存储系统作为数据存储的基础,广泛应用于大数据领域。纠删码存储方式,既具有较高的空间利用效率,又能保证数据存储的可靠性,越来越多地应用于存储系统当中。但纠删码的引入同时也引入了恢复的开销,磁盘读取量显著增大。而随着磁盘容量越来越大,在整盘恢复时,磁盘读取量尤为巨大,严重影响了整盘恢复的性能。在纠删码的存储方式下,设计系统整盘恢复时,面临着两方面的挑战:一方面,在选择数据的放置位置时,需要通过合理地设计放置算法,使得在为每块盘做整盘恢复时,都能使集群中充分多的磁盘参与进来,充分利用集群的IO带宽等资源。另一方面,在为某个盘做整盘恢复时,由于磁盘的容量越来越大,恢复整个磁盘的数据时,涉及到大量的恢复写入IO以及更大量的恢复读取IO。设计整盘恢复策略,在选取恢复读取IO和恢复写入IO的写入位置时,需要进行合理的IO调度,提升恢复读取IO和恢复写入IO的并行度。为了提升整盘恢复的性能,本文针对基于纠删码的分布式文件系统整盘恢复IO调度技术进行了深入研究。  本文的主要工作和创新点为:  1、提出了一种低条带交叉度的数据放置算法LOSDP。传统分布式文件系统中以数据块为单位进行数据放置,未考虑到纠删码存储中条带中各数据块的约束关系。LOSDP算法以各个磁盘的存储数据量和相关数据块的分布情况为依据进行数据放置,提高了整盘恢复时,集群中参与的总磁盘数量,充分利用了集群的性能,提高了相关数据块的均衡性。与APHash数据放置算法相比,相关数据均衡性提高了90.5%。  2、设计了一种高并发的整盘恢复IO调度策略。该调度策略,主要针对提高恢复读取IO和恢复写入IO的并行度。它通过尽量减少同时选取一个节点的恢复读取IO数量,提升了恢复读取IO的并行度。通过将恢复写入IO尽量广地分布在集群中,提升了恢复写入IO的并行度。从而提高了整盘恢复的性能。相较于APHash无调度,整盘恢复的性能提升了300%,相较于LOSDP算法无调度提升了163%。  3、设计实现了ECFS系统的放置模块和整盘恢复模块。放置模块采用了查表的方式,使数据块的放置更加灵活,使系统中每个磁盘的平均恢复时间减少。整盘恢复模块将集群分为若干分组,每个分组通过心跳租约机制监控节点状态,在节点丢失后自动恢复丢失的数据。系统的整盘恢复速度为200MB/s。
其他文献
当前,“软件人”研究工作正逐渐深入,基于“软件人”的各种应用也验证了“软件人”理论、技术、方法的可行性和有效性。“软件人”系统具有递阶、分层、松散耦合的分布式架构。
在澳门,情境式教学是目前中小学教育中的一种重要的教学模式,老师在讲课时利用各种媒体创设情境,引领学生从体验中更好地理解内容,提高学生的学习动机,在组织和创设情境的过程中,不
在目标识别、立体匹配、视觉跟踪、场景重建、自动检测等诸多视觉研究领域,自遮挡现象已成为影响各种任务执行效果的主要因素之一。如何准确、合理地对自遮挡现象进行检测是
计算机图形技术应用日臻广泛,图形处理也越来越复杂,采用专用的图形处理硬件来代替中央处理器进行图形处理已经成为实现高性能图形处理的主要途径。如何高效地对图形处理硬件单
随着互联网的广泛使用,网络上的信息呈几何级增长,如何有效地搜索信息资源是用户密切关注的问题。传统基于关键词的检索只能从字面上匹配,而没有充分利用信息资源之间的语义关系
计算机和网络的出现方便了人们对信息的获取,随着互联网的飞速发展和计算机的迅猛更新,如何从互联网上更快地获取到更准确的有用信息成了人们的关注热点。现有的搜索引擎返回
随着Internet的飞速发展,Web文本信息迅速膨胀,如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息已经成为信息处理领域的一个急需解决的问题。Web文
运动目标的检测与跟踪是计算机视觉的核心问题,它融合了图像处理、模式识别以及人工智能等多领域的技术,在视频编码、智能监控、视频分析以及军事等领域有广泛的应用,是目前
基因组是细胞内的所有遗传信息的总和,它控制着生物体的一系列生命活动,所以获取基因组对生物体生命活动的研究具有重要意义。1990启动的人类基因组计划,对于基因的诊断和治疗、
随着软件的规模和复杂度不断地增大,对软件质量也提出了更高的要求;软件测试作为保证软件质量的重要手段,也因此日渐受到重视。图形用户界面(GUI)是软件的重要组成部分,其测试工