基于Hadoop的分布式文件系统技术分析及应用

被引量 : 30次 | 上传用户:ladiylove
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网(主要为移动互联网)和新兴物联网的高速发展,我们生活在一个数据大爆炸时代。根据IDC估计,2011年,全球产生和创建的数据总量为1.8ZB,且全球的信息总量每过两年就会增长一倍。产生这么多的数据,自然而然就会给我们在数据存储和管理上带来巨大的挑战。IDC的研究报告还指出,全球数据存储容量的增长速度已远远跟不上的数据的增长速度了。这么多的数据存储在一个设备上在当今的存储技术下是很难办到的,并且存储在一个设备上,会对以后数据的分析带来很大的困难。把数据存储在多个设备上,是我们现今存储海量数据的首选。既然存储在多个存储设备上,那么就需要我们有相应的分布式文件系统来管理这些存储设备,使它们能够协同工作,并可以向用户提供更好的数据访问性能。Hadoop分布式文件系统(HDFS),一个类似Google的分布式文件系统(GFS)的出现是可以解决海量数据存储需求的一个很好应用。首先它是一个开源免费的应用并且在很多节点上已经部署,具有不凡的表现。其次,HDFS拥有高容错性、高可靠性、高扩展性和高吞吐率等特征,这些特征都为海量数据提供了安全存储的环境和对超大数据集(Large Data Set)的应用处理带来了很大便利。它还可以与MapReduce编程模型很好的结合,并且能够为应用程序提供高吞吐量的数据访问。在本论文中,首先以时间为轴,介绍了每个时代典型的分布式文件系统及其特点,然后对HDFS的体系架构和运行原理进行了详细分析。通过对HDFS高可用性的研究,结合了BackupNode和AvatarNode这两种方案的优点设计出了一个高可用的分布式文件系统,我们称之为HADFS。该文件系统不仅实现了NameNode的热备节点,还可以在当NameNode节点发生故障时,能够自动切换到备用节点,而用户却察觉不到节点的切换。最后,我们以HDFS为基础存储层设计出了一个可以实现文件上传、下载、新建文件夹和删除文件等功能的云盘系统。该系统采用了SSH框架设计,并在与HDFS传输数据的时候采用了webdav协议,使云盘的前端与底层存储实现了很好的分离。
其他文献
介词短语“在+X”中“X”无论是在形式上还是在意义上都具有多种不同的类型形式,“在+X”本身在句中也具备多种不同的句法功能,且其句法分布具有一定倾向性,各句法功能之间也具
目的探讨中西医结合治疗急性脑出血的临床疗效。方法对我院2012年1月到2013年1月收治的100例急性脑出血患者分组,随机分为对照组和观察组,对照组给予西医治疗,观察组给予中西
目的:掌握五台山保护区啮齿动物种类数量和区系分布。方法:以实地考察(夹夜法)为主,结合访问及文献进行综合整理。结果:该区啮齿动物共有13种,隶属2目5科。其中古北界啮齿动物9种(占69.23%),东洋界
宿白先生的《西安地区的唐墓形制》根据墓葬形制的不同,将西安地区唐墓分为四型,认为此四型分别与皇室重臣、五品以上(其中三品以上又可分出一级)、五品以下、庶人的身份级别
随着高新科技的不断发展,现代雷达技术得到了长足进步,其中雷达组网已经成为雷达技术发展的一个重要方向。通过采用光纤通信技术,利用其通信容量大、中继距离长、保密性好、抗干
结合我国对水质自动监测系统质量保证措施的要求,阐述了影响水质自动监测系统监测数据准确性的几个主要因素。
近年来,新疆番茄酱加工业得到了迅速发展,目前番茄酱的产销量已占全国的90%以上。与此同时,新疆番茄酱生产企业的废水排放量也大幅增加,大量未经处理的废水直接排放,已对当地
研究了巯基乙酸的主要合成方法,即选取硫化钠法作为研究对象,通过向体系中加入盐酸,有效地增加了活性组份HS的浓度,并利用反应产生的硫化氢气体部分地抑制了副反应的发生.此
目的通过对检索的针刺结合心理疗法治疗失眠症的临床研究进行述评,探讨针刺结合心理疗法治疗失眠症的最佳治疗方法及其临床研究设计中存在的问题。方法通过计算机检索中国生
论文以温泉度假酒店为研究对象,空间设计为研究视角,运用文献的收集与归纳分析、实例调研分析、参与实际项目设计实践等方式进行研究分析,通过对世界范围内具有代表性区域的