【摘 要】
:
随着大数据时代的到来,各领域的信息呈现爆炸式增长的景象,如何去管理大规模的数据开始受到人们的广泛关注。Hadoop作为用于对海量数据进行分布式存储和并行处理的软件架构,
论文部分内容阅读
随着大数据时代的到来,各领域的信息呈现爆炸式增长的景象,如何去管理大规模的数据开始受到人们的广泛关注。Hadoop作为用于对海量数据进行分布式存储和并行处理的软件架构,在面世之初就被许多企业及个人接受和使用。Hadoop实现了名为HDFS的分布式文件系统,使用三副本的布局策略去保证数据的可靠性和容错性,同时提供了MapReduce对文件系统中的数据进行有效的处理。HDFS使用的三副本的布局策略虽然可以有效保证数据的可靠性,但是占用了较多的存储冗余空间,造成存储效率低下的问题。纠删码技术是目前被较多用于优化HDFS数据布局策略的一种技术,通过将数据块进行编码来保证可靠性能够有效减少存储冗余空间,但在数据修复时会消耗过多的网络通信流量开销。基于混合编码的Hadoop数据布局方法将RAID 1和RAID 5的概念引入到Hadoop系统中,让数据块使用RAID 1的二副本数据布局方式进行数据布局,提升存储效率,同时使用RAID5的XOR编码使数据块生成编码块,保证系统的可靠性,达到均衡系统存储空间冗余和数据修复中网络通信流量开销的目的。在分析了基于RAID 1+5的Hadoop数据布局方法的可行性后,在HDFS-RAID架构的基础上实现了该方法。实验证明,基于RAID 1+5的Hadoop数据布局方法能够有效减少存储空间,提升容错率,同时系统具有良好的数据写入、数据读取和数据修复性能。
其他文献
随着高层住区生态化的发展,居民逐渐意识到住区室外舒适度的重要性。高层住区作为居民生活的基本单元,其风环境质量直接关系到居民的健康舒适。因此,通过合理的规划布局,营造高质量的住区风环境,对居民生活品质的提高有重要意义。本文以提升住区通风性能为目标导向,运用现状调查、实测模拟和数理分析等技术手段,以西安高层板式住区的典型模型为研究对象,从单因子和多因子分析的角度,探讨建筑空间布局要素变化对住区风环境的
位于中亚造山带的的东天山是我国重要的岩浆型铜镍硫化物成矿带,大量的铜镍硫化物矿床都产出于该地区,如黄山、黄山东、葫芦、香山、图拉尔根、土墩等,在以往的研究中,黄山铜镍矿带是铜镍矿的主要分布地区,在空间上从图拉尔根一带开始,西延至库姆塔格沙垄,但未过库姆塔格沙垄。所以在之前的认识中,黄山铜镍矿带便被众多学者认为是东天山铜镍矿带。然而,近年来,在库姆塔格沙垄以西,陆续有大量的铜镍矿(点)被相继发现。本
我国幅员辽阔,地质和地理条件复杂,气候条件差异巨大,属于地质灾害多发的国家之一。台风是影响我国的主要暴雨系统之一,台风登陆期间易诱发地质灾害发生,台风特大暴雨极易引
多核处理器目前已经广泛应用于个人生活和科学研究中,成为处理器的主流,但是在许多应用场景中多核处理器的资源并没有被充分利用。数据流编程模型是一种高效的并行编程模型,
本文主要是在单、双参数C半群的定义与其生成元、生成定理、逼近及其谱的基础上,利用经典算子半群的研究方法.根据之前学者们对单、双参数C半群的研究成果.给出多参数C半群定
目前在国内轧辊等铸件的生产过程中,需要在线分析多种元素含量,以提高制造工艺、保证产品质量。需要检测的元素包括C、S等非金属以及金属元素。目前使用的方法主要有火花光电
合金钢LIBS定量成分分析是LIBS研究的热点和难点。本文对合金钢LIBS定量分析中谱线自动识别和元素成分分析进行研究,主要内容分为两部分:一是研制以谱线识别算法和原子光谱软
Al GaN/GaN高电子迁移率晶体管(HEMT)具有高的载流子浓度和高的迁移率,在高频和高功率等领域表现出了优异的性能。一方面,HEMT器件在实际的使用过程中可能会受到外部应力的作用,对其特性产生影响。研究应力对于HEMT器件影响的作用机理十分重要,另一方面,相关文献表明能带和二维电子气的浓度会随着压电效应极化电荷而改变,HEMT器件可以用来做压力传感器,因此拓展并且加深HEMT器件的应用非常重
在国家某大型工程建设中,侧装模块需要装入到主体装置。侧装模块种类多,数量大,洁净度要求高,安装空间复杂,定位精度高,装卸频率高。本文针对侧装模块装卸任务的需求,设计了
近年来,随着数据量的急剧增长,传统的存储方案已经难以满足用户的存储需求,云存储作为一种新的分布式存储模式越来越受到研究者和用户的青睐。多云存储解决了单云存储存在的