Hadoop小文件处理方法的研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户：wqg

【摘要】

：

作为日趋成熟的分布式系统,Hadoop拥有强大的海量数据存储与分析处理能力,在许多公司的应用之中都有良好的表现。本文所研究的HDFS(Hadoop Distributed File System)是Hadoop

【作者】

：

党毅

【机构】

：

西安电子科技大学

【出处】

：

西安电子科技大学

【发表日期】

：

2015年期

【关键词】

：

HDFS 小文件合并存储索引 B+树

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

作为日趋成熟的分布式系统,Hadoop拥有强大的海量数据存储与分析处理能力,在许多公司的应用之中都有良好的表现。本文所研究的HDFS(Hadoop Distributed File System)是Hadoop的重要组成部分之一,它被设计用来以流式数据访问模式存储大文件,非常适合用来对大数据集进行分析。然而许多实际应用场景要求存储和处理大量的小文件,这并不是HDFS所擅长的。在小文件量急剧增长时会出现以下问题:名称节点内存大量被消耗,成为系统瓶颈;访问大量小文件效率低下;mapreduce时浪费系统数据处理资源。因此如何将Hadoop应用到小文件场景成为亟待解决的问题。本文通过分析发现了解决问题的关键所在:一方面需要减少文件数量,另一方面需要减少客户端在存取文件时与名称节点的交互次数。根据这样的思路,首先,本文通过将小文件合并成大文件,将合并文件整个存入文件系统的方式来减少名称节点需要维护的文件元数据信息的数量,借此缓解名称节点内存压力;之后本文利用B+树查找速度快、元素按序排列的优势,以B+树为结构基础在名称节点上建立索引来维护小文件与其所在合并文件的对应关系,同时对原始的B+树加以改进,使获取所请求文件信息时能够将与其上传时间相关或存储位置相关的其他文件索引信息一同获取,利用这些预取的索引信息,再次访问时先从本地查找索引信息,若命中则可以直接根据该信息从名称节点请求数据,从而减少访问名称节点索引的次数,提高读取效率;最后在客户端读取文件时将小文件所在数据块预取到本地,并建立索引维护本地数据信息,再次请求文件时若文件已被预取到本地就不需要再向名称节点请求文件,从而进一步减少访问名称节点的次数。之后,本文搭建了Hadoop集群,并将上面的设计方案在该集群上进行了实现,并对试验中名称节点的内存以及读写速率等性能进行了测试。经试验表明,与原始的HDFS相比较,本文提出的改进方案在内存消耗和文件访问效率方面均有不错的提升。

其他文献

政务微博形象构建初探

摘要：新媒体平台的出现，为政府部门政务信息的民主化公开提供了一个即时、互动的窗口。随着政务微博的数量呈现爆炸式增长，它的可持续发展将遇到前所未有的挑战。当前政务微博在发展过程中遇到不少问题，其形象构建亟待被重视。本文将从政务微博的现状、形象构建基础、典型案例启示这三方面进行初步探析。　　关键词：舆论引导；形象构建；公信力　　中图分类号：G206.2 文献标识码：A

期刊

舆论引导形象构建公信力

多云协同架构下安全高效的数据隐私保护方法

云计算的发展提高了大数据处理的效率和降低了用户的成本,但这种发展受到了数据隐私保护的严重阻碍。基于密钥共享技术或全同态加密技术因代价大、效率低,不适用于云计算环境

学位

云计算大数据敏感信息数据隐私保护MapReduce

贝叶斯网络在核电站组织因素影响分析中的应用研究

学位

基于KINECT的跌倒检测研究

近年来,跌倒已经成为对老年人的健康构成威胁的最危险的情形之一,特别是对于那些独自生活的老人来说尤为严重。当老人跌倒之后,他们很难独自站立起来,这就延缓了得到及时治疗

学位

跌倒检测Kinect骨骼数据头部速度主轴方向角度变化率

基于灵活树模型构建基因调控网络

随着生物信息学和计算机技术的发展,基因调控网络的研究越来越受到研究人员的重视,特别是基因芯片技术的发展,产生了大量的基因表达数据和生物大分子数据图谱,这为研究基因调

学位

基因调控网络微分方程模型灵活树模型遗传算法

广义Kautz有向图GK(2，n)和交错群图AG<,n>的反馈数

对简单图G=(V，E)，F是G的点(或边)子集，如果由VF(或EF)导出的子图不含圈，则称F是G的反馈点(或边)集。记fv(G)(或fa(G))为所有反馈点(或边)集的最小的阶数，称为G的反馈点(或边)数。

学位

交错群图网络传输确定图计算机构造数学推理

对VxWorks中内存管理和定时器模块的改进

随着嵌入式系统越来越复杂,数据处理量成几何级增长,尤其在航空航天、工业控制、医疗、通讯等重要领域中,嵌入式系统的实时性和可靠性就显得尤为重要。本文基于嵌入式VxWorks

学位

VxWorks毫秒级定时器可调整内存管理

海洋元数据目录服务系统的研究与实现

21世纪是海洋世纪,各国已将开发海洋资源、加强海洋勘测用于解决陆地资源日渐枯竭的主要途径,海洋已经成为各个国家着眼并着手的下一个开发之地。目前,全球性海洋开发的步伐,

学位

目录服务LDAP元数据XML节点存储模式

Hadoop小文件处理方法的研究与实现

其他学术论文