基于Hadoop的小文件存储与预取方法的研究

来源 :华东理工大学 | 被引量 : 0次 | 上传用户:yh603469940
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互连网从传统PC蔓延到移动领域,海量信息数据存储技术也得到了快速发展,其中,Hadoop云计算平台技术是许多企业处理大数据的首选。Hadoop平台的优势在于大数据的分析处理以及存储,Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)在应对大文件的存储具有很高的效率和稳定性。然而,在移动互连网领域,信息数据主要是以小文件的形式存在,当Hadoop应用于分布式小文件存储时,暴露出其在小文件处理时的低性能和扩展性差的缺点。由此可见,分布式小文件存储给Hadoop的整体发展带来了性能瓶颈。  首先,论文在深入分析了Hadoop中小文件处理问题,详尽阐述了小文件引发的问题以及应对的策略,对Hadoop自身提出的优化方案进行重点分析,介绍其不足之处,并阐述了分布式缓存相关技术。然后,在深入研究了小文件关联性的基础上,结合关联规则挖掘技术,提出了基于关联规则挖掘的分布式小文件存储方法ARMFS。ARMFS通过针对Hadoop系统的审计日志进行关联规则挖掘,获得小文件间的关联性,利用文件合并算法将高度关联的小文件合并存储至HDFS。在用户访问时,合并在一起的高关联性小文件块也会一并被访问到,从而提高了文件的访问效率。接着将预取机制与缓存技术引入到小文件读取之中,提出了基于关联规则的缓存替换算法ARCR在请求HDFS文件时,根据关联规则挖掘得到的高频访问表和预取机制表,提出预取算法来进一步提高文件访问命中率,提升了整体系统的性能。  论文最后,搭建了Hadoop+Ganglia实验平台,使用不同规模的数据集对提出的小文件存储和预取方法进行测试。实验记录的内存消耗、下载时间等关键数据,实验结果表明:本文提出的小文件存储和预取方法明显提高了NameNode的内存使用效率,以及小文件的下载速度和访问效率。
其他文献
随着科学计算在应用数量上以及规模上的快速发展,封闭于单一组织的超级计算机已经难以满足科学家们的需求。随着互联网基础设施的不断完善,跨越多组织、多管理域的多机群共享与
现如今软件系统需要不断地进行演化以适应外部环境和用户需求的频繁变化,软件演化已成为软件系统整个生命周期的重要形态之一。因此,在软件需求分析开始时就考虑支持软件演化
学位
近年来,随着信息化与数字化的发展,广告业也有了天翻地覆的变化。而随着互联网的愈发普及,网络广告已经成为了广告业中的重要主体。通过传统的静态投放方式,巨大的投放费用无法换
目前,在儿童的教育方面过于偏重分数,普遍存在素质教育缺失的问题。大多数的儿童都是独生子女,与他人的协作沟通能力欠缺,可能导致将来难以融入社会。而音乐教育尤其是合奏教育,对
随着“互联网+”概念的提出,社会网络势必将渗透人们生活工作中的点点滴滴,与此同时,社会网络中的信息复杂度也将膨胀式增长。如何评判社会网络中用户的行为,从复杂网络中对行为
近年来,随着无线通信技术的迅速发展,车载自组织网络(Vehicular Ad-hoc Network,简称VANET)逐渐成为一个重要的研究领域,受到学术界和工业界的瞩目,基于车载网可以开发多种应用如
化学反应启发式优化算法(Chemical Reaction Optimization,CRO)是近年来提出的一种新型演化算法。其已在诸多领域展示了解决NP完全问题的强大能力。本文以化学反应优化算法这
大屏幕交互在会议、演讲、火车站、博物馆等场合扮演着很重要的角色,在这些不同于以往桌面交互的新交互场景中,用户多需要站在一定距离之外与大屏幕交互,整个交互过程没有支撑平
机器学习在多个领域得到广泛应用。随着计算能力的提高,使得贝叶斯网络这种学习方法成为研究的热点。生成式概率图模型是贝叶斯网络的特例。所谓的生成式模型是指其网络结构提