HDFS元数据管理与数据组织优化研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:nibeibei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
云计算和Web2.0应用对分布式存储系统提出了如下性能要求:极高的聚合读写带宽,庞大的名字空间管理能力以及均衡的数据读写负载。然而现有分布式文件系统存在诸多设计和实现上的缺陷,例如扩展性差,读写性能不理想、元数据管理的性能瓶颈和数据可靠性较低等无法回避的问题,严重制约了实际应用与部署。在这种背景下,本文针对海量数据存储和管理中的元数据组织,I/O性能优化和海量数据管理等问题展开研究。本文的主要工作及创新点如下:  (1)提出了一种基于多元数据服务器组织文件系统名字空间的方法。海量离线数据分析任务中需要处理大量文件,高效管理这些文件极为重要。我们提出并实现了两项关键技术:通过一种快速的元数据分布与映射策略确保了元数据均衡分布,以及一种改进的两阶段提交协议确保在执行跨节点操作时,系统状态能维持一致。  (2)提出了一种海量数据管理以及文件系统动态优化的方法。现有数据副本可靠性技术主要通过心跳汇报实现,当数据块到达一定规模时,集中式块汇报机制将面临性能瓶颈问题。我们将原先的单点块汇报处理机制进行分区,实现了分布式数据块状态汇报机制,消除了原系统的性能瓶颈,获得了良好的扩展性。  (3)提出了一种面向分布式文件系统的数据布局优化方法。对于分布式文件系统而言,数据存储布局在长期运行后可能由于热点漂移发生劣化现象,轻者影响数据读写性能,重者影响系统稳定工作并可能诱发设备故障。我们提出的方法结合了静态分配和动态迁移策略,在任务分配时和系统运行时自动均衡节点负载。实验结果证明了该方法有效实现了集群负载均衡化,消除了数据集中访问导致的I/O热点问题,一定程度上优化了上层应用性能。  (4)提出了一种综合多种技术优化的数据加载方法。使用Map/Reduce处理海量数据的首要步骤是将数据从本地文件系统上传至HDFS。当数据规模极为庞大时,将导致严重的时间耗费以及空间浪费。我们通过文件系统间的元数据映射机制加速了数据上传过程,同时优化了主机间数据交互以及校验和生成过程。  (5)综合上述技术实现了一种新型分布式文件系统Prism。该系统实现了可扩展的元数据管理,高吞吐率I/O操作以及动态均衡集群负载的能力。我们通过实验验证了该系统在生产应用中的实际性能,进一步检验了上述技术的有效性。
其他文献
随着Internet的飞速发展和计算机应用的普及,人类的生产和生活方式发生了巨大的变化。丰富的多媒体信息特别是连续的媒体内容通过网络传输媒体数据为人们提供了更加便利的平台
学位
企业资源计划ERP是指建立在信息技术基础上,以系统化的管理思想,为企业决策者和员工提供决策手段的管理平台。由于其应用通常针对特定的领域,因此可以在特定领域的软件体系结构D
数据库作为一个已经发展了几十年的相对成熟的领域,衍化的诸多产品比如IBM DB2,Oracle DB,Microsoft SQL Server已经成为了当前诸多的信息系统的重要组成部分。但是,由于数据库其
随着计算机技术和信息技术的不断成熟,人才需求的变化使得远程教育蓬勃发展,在线考试作为远程教育的考核和评估手段应运而生。它能解决传统基于纸和笔的考试存在的许多弊端,可以
随着光学遥感技术的发展,基于光学遥感图像的目标检测和识别技术一直是遥感图像处理领域的研究热点。舰船目标是重要的海上目标,光学遥感图像中舰船目标检测具有重要的民事和军
半监督学习是机器学习中的重要研究领域,一直为国际机器学习界所广泛关注,近几年来随着机器学习在数据分析和数据挖掘中的广泛应用,半监督学习的理论研究成果已经部分应用于实际
学位
随着信息网络化和经济全球化的发展,电子政务已逐渐成为当代信息化领域中重要的一环。尤其近几年我国各级政府通过建立门户网站、完善政府服务职能等工作,不同程度地推动了电子
无线传感器网络(wireless sensor network,简称WSN)是一种新型的无基础设施的无线网络,能够协作地实时监测、感知和采集各种环境或监测对象的信息,并对其进行处理,通过无线通信方
随着视频会议,远程医疗等基于多媒体数据传输,有较高的的QoS需求网络应用服务的迅速发展,当今互联网对于稳定高效的QoS路由协议的需求也日益增长。QoS路由选择是QoS路由协议的主
入侵检测系统是网络安全研究的一个热点,它能够动态监视网络的流量,发现非法的入侵行为,实时关闭非法的连接,是网络安全产品的基础和核心。   蜜罐是一种新兴的主动防御的网络
学位