论文部分内容阅读
随着全球互联网的快速延伸和各行各业信息化技术的快速发展,各种数据信息量在本世纪开始以来的12年时间里已经呈指数级的增长趋势。传统的存储系统显然已无法在存储容量和数据存储管理方面满足海量数据存储的需求,而分布式存储系统恰好在存储容量和数据存储管理方面较好地弥补了传统存储技术的不足;因此,分布式存储系统技术已经成为当前计算机信息存储技术领域内的“热点”研究方向。分布式文件系统在分布式存储系统中的作用非常重要,它是实现分布式存储的核心技术,所以对分布式文件系统进行研究有重要的现实意义。HDFS文件系统是一个开源的分布式存储文件系统,目前在分布式存储系统中的应用比较多。但是由于HDFS文件系统一般是将元数据存放在存储系统中一个单独的节点上,这种元数据布局方式给分布式存储系统的I/O性能带来了不利影响,另外单一节点还存在单点隐患问题,因此很难保障元数据管理的可用性和稳定性。针对以上问题,本文重点对HDFS文件系统中的元数据的高可用性管理方法进行了比较深入的研究,论文作者所做的主要研究工作和取得的成果如下:1、在分析和研究了HDFS元数据管理原理的基础上,提出了一种HDFS文件系统中元数据的高可用性管理方案。2、给出了一种业务节点与元数据节点通信的改进方法。因为分布式存储的一个重要特点就是元数据与业务数据分开管理,而元数据节点的结构变化会引起业务数据节点的通信机制产生变化,所以改进业务节点与元数据节点之间的通信方式非常重要。3、设计了一个基于HDFS的双节点元数据管理系统。该元数据管理系统包含了两个并列的元数据节点,每个节点可以同时处理来自客户端的请求,同时元数据节点之间可以实时进行数据的一致性通信;当某一节点失效时,存储系统不需要进行数据迁移仍然可以稳定地对外进行服务。本文已将改进后的HDFS文件系统应用到了作者单位的“综合平台用户行为分析引擎关键技术现场试验”项目中,并与改进前的HDFS进行了完整的对比测试。测试数据表明改进后的双节点元数据管理系统在稳定性方面效果比较明显,它提升了整个HDFS文件系统的可用性和稳定性。