论文部分内容阅读
随着互连网从传统PC蔓延到移动领域,海量信息数据存储技术也得到了快速发展,其中,Hadoop云计算平台技术是许多企业处理大数据的首选。Hadoop平台的优势在于大数据的分析处理以及存储,Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)在应对大文件的存储具有很高的效率和稳定性。然而,在移动互连网领域,信息数据主要是以小文件的形式存在,当Hadoop应用于分布式小文件存储时,暴露出其在小文件处理时的低性能和扩展性差的缺点。由此可见,分布式小文件存储给Hadoop的整体发展带来了性能瓶颈。 首先,论文在深入分析了Hadoop中小文件处理问题,详尽阐述了小文件引发的问题以及应对的策略,对Hadoop自身提出的优化方案进行重点分析,介绍其不足之处,并阐述了分布式缓存相关技术。然后,在深入研究了小文件关联性的基础上,结合关联规则挖掘技术,提出了基于关联规则挖掘的分布式小文件存储方法ARMFS。ARMFS通过针对Hadoop系统的审计日志进行关联规则挖掘,获得小文件间的关联性,利用文件合并算法将高度关联的小文件合并存储至HDFS。在用户访问时,合并在一起的高关联性小文件块也会一并被访问到,从而提高了文件的访问效率。接着将预取机制与缓存技术引入到小文件读取之中,提出了基于关联规则的缓存替换算法ARCR在请求HDFS文件时,根据关联规则挖掘得到的高频访问表和预取机制表,提出预取算法来进一步提高文件访问命中率,提升了整体系统的性能。 论文最后,搭建了Hadoop+Ganglia实验平台,使用不同规模的数据集对提出的小文件存储和预取方法进行测试。实验记录的内存消耗、下载时间等关键数据,实验结果表明:本文提出的小文件存储和预取方法明显提高了NameNode的内存使用效率,以及小文件的下载速度和访问效率。