HDFS纠删码机制的优化研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:jerrymao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据量的不断增长,存储成本也成倍增加,对存储系统的经济性提出了更高的要求,尤其是大型分布式存储系统。作为最为广泛使用的分布式存储系统之一,HDFS在最新的3.0版本中开始支持纠删码机制,这极大地降低了存储成本,但是受限于纠删码本身的特性,与传统的三副本技术相比,纠删码机制在进行故障恢复时需要占用更多的计算机资源,恢复时间更长,这在大型分布式系统中表现的尤为明显。HDFS应用的纠删码技术,主要采用的是里德-所罗门码(RS),该编码在进行数据恢复时,需要从其他节点读取大量数据块。与此同时,HDFS在选择恢复所需的数据块时主要使用随机算法,这导致了纠删码在读取等量的数据时将浪费更多的时间。本文将从减少所需要读取的数据块的数量和优化其块选择算法两个角度,对HDFS的纠删码机制进行一定优化,降低恢复时间,提高恢复效率。本文首先对HDFS中现有的纠删码机制进行了深入的分析,通过对比实验的方式,从资源开销、恢复时间等多个角度,对纠删码机制与传统的三副本机制进行对比研究。接着,本文基于Piggybacking编码框架对HDFS采用的RS编码进行了优化设计和实现,用更细粒度的条带组代替原先恢复时的单条带,通过附加信息,有效地减少故障恢复所需的数据块数量,从而减少读取时间,降低恢复的时间成本。然后,本文提出了基于距离的块选择算法和基于负载均衡的块选择算法。对于基于距离的块选择算法,通过对机架间带宽和节点间距离关系的分析,将减少机架间带宽占用问题转化为选取距离最近点问题,提出按照节点距离远近选取辅助节点的算法,有效减少了机架间带宽传输,提高了传输的平均带宽;对于基于负载均衡的块选择算法,通过对数据节点运行状态的分析,建立了一个节点运行状态权重模型,根据各节点的权重值选择辅助节点,确保选到的节点负载相对较轻,降低由于节点状态变化导致数据请求无法及时得到响应的情况发生的概率,提高恢复成功率。所以,可以根据自身需求选择其中一种使用。最后,将修改完成的Hadoop程序与未进行修改的Hadoop程序分别部署到集群上。结合各种负载和基准测试用例,通过改变文件大小、节点配置等方式,进行对比实验。实验结果表明本文提出的优化算法确实能够提高HDFS纠删码机制的性能,减少故障恢复时间。
其他文献
在大数据的背景下,人们对海量数据的存储和管理越来越依赖于分布式文件系统,而文件的放置算法是影响分布式文件系统整体性能的重要因素之一。近年来,研究者针对文件的访问热
随着软件规模和复杂性的不断增加,软件缺陷变得不可避免,这就导致软件维护变得相当重要,而Bug修复活动是软件维护中的重要环节。Bug修复活动中最主要的任务就是对Bug报告的管
传统节日是传承优秀传统文化的重要载体。笔者所在幼儿园在开展传统节日教育的课程和研究中,看似顺畅的过程中却生发出种种意外,这些问题与困惑促使我们不断反思不断重构,一
会议
单点金刚石车削是一种利用金刚石刀具直接加工出具有高质量表面而不需要进一步抛光的超精密加工技术。随着各种精密元器件的应用越来越广泛,对表面质量的要求越来越高。表面粗糙度_((6)是评价加工后表面质量的关键指标,但受多种因素的影响,而目前针对于材料特性对超精密加工表面粗糙度影响的研究大都集中于材料膨胀和晶体取向等。铝6061(Al6061)是一种可热处理的Al-Mg-Si铝合金,主要合金元素为Fe、S
变量灌溉(Variable Rate Irrigation,VRI)是精准农业的重要分支,大型处方变量喷灌机是实现变量灌溉的主要手段。目前对大型处方变量喷灌机的主要研究方向是利用脉宽调制(Puls
为了解决信号采集中受损数据的修复问题,降低信号稀疏度对修复效果的影响,同时实现欠采样条件下机械故障的识别,本文基于稀疏表示理论,研究了基于稀疏采样的数据修复方法、基
高中新课程改革在我省开展已经有五年的时间,在《普通高中物理课程标准(实验)》中,不论是课程目标、内容准则还是施行建议都明确的提出了对探究的要求。每一个教师都十分关心
切伦科夫发光断层成像(Cerenkov Luminescence Tomography,CLT)能够利用光学成像仪器探测到放射性核素衰变产生的切伦科夫荧光,反映放射性核素探针在生物体内的三维空间信息,
有关移动通讯网络建设风险评估的研究成果很多,但在国内还停留在理论模型讨论层面,缺乏相关的实践依赖和实证分析。本文依托WZ联通主干光缆网络建设项目,对光缆建设项目的范
随着纳米技术的发展,高集成度神经网络电路成为可能。虽然CMOS工艺在不断地进步,但是基于CMOS的神经网络仍然存在很多不可避免的问题:突触信息存储在片上的易失性;CMOS神经网