论文部分内容阅读
随着数据存储的高速增长,传统的数据库已经无法满足人们处理大规模数据的需求,有关海量数据的处理与存储成为当前的研究热点。尽管一些大型云服务提供商如亚马逊、谷歌已经在云存储服务方面取得了巨大成功,但由于难以克服的隐私和数据保护等问题,许多用户仍然不能将应用转移到云环境中。而私有云能提供对数据安全性的有效保证,因此对私有云存储的架构及相关技术的研究具有理论和应用价值。Hadoop文件系统(HDFS)作为Google File System的开源实现,成为业界研究云计算、云存储和实现云端应用的参考模型。但现有的HDFS架构对小文件的支持不足,单一的NameNode容易成为整个集群性能瓶颈等问题。论文针对通用云存储系统的架构进行研究,并给出基于Hadoop处理海量小文件方法。本文主要研究内容如下:在对HDFS深入分析研究的基础上,综合考虑了通用云存储系统的特征,以提高存储效率为目标,提出一个云存储系统的架构。借鉴了国内外关于HDFS中小文件处理方法,采用二维装箱算法思想和动态优化思想,设计了小文件处理算法,对HDFS中的小文件进行预处理,提高系统的响应速度。实验表明,所提出的小文件处理方法的能有效提高资源的利用率及系统的响应速度。设计实现了一个基于高校应用环境云存储原型系统,该系统将对象内容和对象元数据进行分离,采用多区域架构模型。原型系统验证了提出的云存储系统架构合理性和有效性。