异构平台下基于HDFS的数据动态分配策略研究

来源 :北方工业大学 | 被引量 : 2次 | 上传用户:yuesiyi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化社会的快速发展,互联网中的数据量急速增长。由于传统存储模式难以突破其存储限制,分布式存储系统便越来越受欢迎,其中HDFS(Hadoop Distributed File System)是目前应用比较广泛的一个分布式文件存储系统。随着先进存储设备的发展,具有高读写性能的SSD和普通磁盘等异构设备作为目前主流的存储介质,已被广泛应用于HDFS系统中。HDFS有效解决了大数据处理面临的海量数据存储问题,并通过提供不同的数据存储策略和相应的存储接口来对冷热度不同的数据进行存放,这样开发人员就可以利用这些接口实现对数据的分类存储。然而,如何精确地对HDFS系统中的冷数据和热数据进行分配成为当前最为关键的问题。经过研究与分析发现,在对HDFS系统中数据进行分配时,现阶段通常采用的分配算法是首先为所有数据统一分配存储策略,然后根据数据的访问频率去动态调整其存储策略,从而实现对冷热数据的分配。但是采用传统算法对HDFS系统中的数据进行分配时,存在以卜问题:一方面,一些冷数据可能被存储在SSD上,导致系统中SSD的命中率不高,无法充分发挥SSD作用,造成SSD硬件资源的浪费,影响HDFS的性能;另一方面,一些热数据可能被存储在普通磁盘上,导致这些数据的读写效率低,降低了系统的吞吐量和存取效率,也会影响HDFS的性能。针对传统分配算法存在的问题,本文基于HDFS在数据(文件级)分配策略方面进行研究,完成的主要工作如下:(1)通过热度值来反映文件的访问热度,提出了一种基于Trace分析预设文件初始热度值的方法。其主要思想是:基于其他HDFS应用程序的大量Trace或当前HDFS应用程序的历史记录进行分析,综合考虑文件类型、大小和上传用户等影响因素,构建模型来计算不同类型文件的热度值。这样,当每个新文件第一次上传时,根据其类型,为其预设一个初始热度值,实现对文件热度的初始分配。(2)传统方法中基于访问频率的动态分配策略是利用过去一段时间的文件访问次数来预测文件未来的访问频率,而忽略了文件类型和大小等一些关键因素对文件未来访问频率影响的事实。为此,提出了一种利用BP神经网络调整文件热度值的方法。当文件被访问时,综合考虑文件类型、大小和访问次数等影响因素,构建模型来计算文件的实时热度值,并利用BP进行调整。然后根据调整后的热度值,预测出经常访问的文件和不常访问的文件,实现对文件热度的实时分配。(3)在文件热度分配以后,利用HDFS提供的六种存储策略和相应的存储接口,根据文件热度,将文件存储到具有不同读写性能的异构设备中。(4)基于HDFS,用本文的数据分配策略对比传统的数据分配算法,进行大量仿真和实验,实验证明本文的数据分配策略能较好地提升HDFS性能。
其他文献
期刊
【正】观点澳航取消波音85亿美元订单英国《金融时报》讯澳洲航空公司(Qantas)因"需求增长放缓"取消了订购35架波音(Boeing)飞机、价值85亿美元的订单。这家澳大利亚航空公司
目的对H1N1流感疫苗的不良反应以及安全性进行分析与探讨。方法随机抽取在2008年2月至2012年2月这段时间里在我院接种H1N1流感疫苗的接种者2146例,对其接种后3d~1个月的时间
<正> 《中国法制史》课程是法律学科类法学专业(专科)的选修课。教材使用蒲坚主编、光明日报社出版的《中国法制史》;参考教材是蒲坚主编、中央广播电视大学出版社出版的《中
随着国家经济的快速发展,很多地方都加强了对畜牧技术的推广.畜牧业是我国重点发展的产业,对地方的建设、经济发展和社会稳定,会产生一定的影响.文章针对畜牧技术推广中存在
1.发价2.提单3.信用证4.委付二、填空1.国际贸易统一法的两个渊源__和__。
乌克兰危机的爆发,起源于2013年11月乌克兰总统亚努科维奇宣布暂停与欧盟签署联系国协定。作为欧盟"东方伙伴关系"计划的核心组成部分,联系国协定一旦签署,将为伙伴国与成员
平面向量是高中新课标的重要内容,具有代数形式和几何形式的双重身份,是中学数学知识的一个重要交汇点,常与函数、三角、解析几何等内容交叉渗透,使数学问题的情境新颖别致,自然流
目的探讨培美曲塞联合顺铂二线治疗晚期肺腺癌临床价值和用药安全性。方法通过将本院2008年1月至2012年7月32例晚期肺腺癌患者随机分成两组,观察组16例使用培美曲塞500 mg/m2
针对目前大学物理课程教学中存在的具体问题,提出将思维导图这种可视化思维工具运用到大学物理教学中进行辅助教学,阐述了大学物理教学中运用思维导图的可行性,并结合实例介