海量小文件存储系统的研究与实现

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:xmy870129
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着web2.0技术的普及和飞速发展,互联网数据出现了爆炸性的增长。为有效存储和管理如此大规模的数据,诸多研究机构和公司都提出了各自的数据存储方案。其中影响最大的莫过于开源的HDFS(Hadoop Distributed FileSystem),其已经在学术界和工业界得到了广泛应用。但是,HDFS的优势在于存储超大文件,对于海量小文件的支持很不理想。   结合图片检索系统和“中华字库工程”项目,本文研究如何基于HDFS搭建海量小文件存储系统。通过分析HDFS的结构特点,找到其对海量小文件支持不理想的原因,并提出一种解决HDFS海量小文件存取的方法HIFM(Hierarchy Index File Merging)。   HIFM是一种基于小文件合并的方法,主要包括以下五个方面的内容。第一,HIFM方法通过将小文件合并为大文件,减少系统中存储文件的数目,达到降低NameNode内存开销的目的。第二,HIFM方法在合并的过程中会生成两个层次的索引文件,并采用集中存储和分布式存储相结合的方式管理索引文件。第三,HIFM方法将索引文件预加载到内存中,减少磁盘I/O的次数,提高小文件随机读取的效率。第四,对于未满的大文件,HIFM支持其内容的动态追加。因此,当存储少量小文件时,可以将其追加到某个未满的大文件中,进一步减少NameNode的内存开销。第五,HIFM提供数据预取的机制,优化小文件顺序读取的效率。   基于HIFM方法和HDFS实现一套海量小文件存储系统,并对系统的性能进行测试与分析。实验结果表明,与原始HDFS、Hadoop Archive和HBase相比,HIFM方法能够有效降低NameNode的内存开销,缩短小文件的存储时间,并显著提升小文件随机读取和顺序读取的性能。其中随机读取的时间延迟保持在20ms左右,完全满足在线小文件读取服务的应用需求。
其他文献
物流行业是“十二五规划”中涉及的重要行业,是我国未来经济发展的重要组成部分。冷链物流是物流行业的一个重要分支,而冷藏运输是冷链物流的重要一环,公路冷藏运输在总体冷藏运
本文对现代维吾尔语多策略统计、多维度动态特征数据分析、词性标注关键技术、常用词表和现代维语词语标注规范的研制等词汇一级信息处理过程中涉及的关键技术及方法进行全方
非功能需求在软件开发过程中起着重要的作用,甚至直接决定了软件项目的成败。很多非功能需求直接约束了系统的实现策略。如何根据非功能需求确定软件系统的最优的实现策略成为
随着企业信息化建设的发展和进一步深化,产生和积累了海量的非结构化数据,这些数据具有大量的链接关系,数据规模巨大,数据模式也在不断变化。企业的业务分析决策需要对这些大量的
在信息严重过载的今天,推荐技术能帮助我们更便捷地获取需要的信息。推荐技术从最初的提出发展到现在,出现了一些经典的算法,例如基于内容的推荐和基于近邻的协同过滤。推荐技术
全球市场竞争局势急剧变化,中国要从制造大国向制造强国转变,亟需建立准时交货、快速交货的核心竞争力。订单履行流程是供应链中影响企业订单交付水平的关键业务流程。本文研究
当前,随着大数据时代的到来,全球数据总量呈现爆炸性增长的态势,存储系统的规模也随之不断扩大。而系统规模的扩大势必会带来高故障频率问题,如何提高云存储系统的可靠性成为
随着互联网和SOA的发展,Web服务作为一种面向服务的、分布式的应用技术,也得到了快速的发展。Web服务是一个平台无关的、松耦合的、自描述的、可编程的分布式计算模型,随着Web服
随着半导体工艺、现代集成电路技术的发展,传统的单核结构处理器难以得到更有效的发展。多核体系结构的问世,为处理器设计领域带来了更广阔的的发展空间。与此同时,在星载系统等
管道运输,在煤矿开采、石油化工及天然气等产业中具有不可替代的作用。近年来,塑料管材的应用越来越广泛,已经被大量应用于工业传输液体气体领域。目前国内外管道监测研究主要是