HDFS数据副本随需调整及其放置策略研究

来源 :兰州理工大学 | 被引量 : 7次 | 上传用户:bosigai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术的持续快速发展带来了对数据存储及作用在数据集上计算的空前要求,科研机构、政府以及企业都面临着海量数据存储成本高、数据管理困难、计算复杂度高、容错率低等难题。为了解决这些问题,云存储应运而生。云存储正是一个以数据为主要资源,为云计算提供底层数据存储的系统,它将网络上分散的、异构的、独立的、海量的存储系统组织成一个可靠的、安全的逻辑意义上的整体,进行统一的管理,从而为用户提供高效的、高可靠的、透明的服务。云存储系统中的数据副本技术是必不可少的数据管理技术。本文基于HDFS云存储集群,主要研究的数据副本技术包括:数据块大小的确定、数据副本创建条件、数据副本创建个数、数据副本删除条件以及确定数据副本放置位置。针对以上所需要研究的内容,文章做了以下几方面的工作:首先,建立文件数据块大小动态调整模型、数据副本创建模型及删除模型;其次,建立数据副本放置的默认模型与动态模型,提出了层次化的机架节点选择算法和数据节点选择算法(该模型中,数据副本个数可以按照需要动态调整)。其中,数据块大小确定策略的优劣将直接影响到Map/Reduce任务数的分配、文件数据块的管理以及网络系统的性能,因此必须结合环境特点与用户需求于一体为文件数据分块;在决定了合适的块大小后,则需要结合云存储系统的特点与用户需求将文件数据写入集群;同时,云存储集群系统还需要解决副本冗余度的问题,即应该为一个文件数据块创建多少个副本的问题;基于数据副本创建条件,必须解决冗余副本的删除问题,以提高集群系统服务效能;在放置数据副本时,文章以减少并优化文件数据在HDFS云存储集群间的传输,达到节省网络带宽和提高HDFS集群系统Map/Reduce计算性能的目的,将数据副本放置策略划分为默认数据副本放置策略和动态数据副本放置策略。
其他文献
随着煤炭行业信息化的迅速发展,煤炭行业来自各方面的竞争也是越演愈烈。为了达到以较低成本增强管理水平和市场竞争力的最大化程度,企业大力推进自动化无纸办公建设将是一种必
云计算描述了一种基于互联网的新的IT服务增加、使用和交付模式,通常书籍通过互联网来提供动态易扩展而且经常是虚拟化的资源。云计算的服务模式分为三种:软件即服务,平台即服
Cloud Computing is growing up technology in current era,we can say it is being used widely in our daily life and it has become essential part of the world.Cloud
学位
算法的复杂度是衡量一个算法好坏的标准,所以对算法复杂度的理论分析和研究对该算法的推广和应用有着极其重要的意义。评价一个算法优劣的标准就是该算法在运行中所消耗的时
随着计算机在工业领域的实用性普及传感器的迅猛发展,人们可以利用各种移动计算设备,包括智能手机、便携式计算机、智能传感器等方便快捷的获取周围甚至范围更加广泛的信息和
大脑是支配人的意识、思维、情感、运动和接受各种感觉的器官,其生理功能是通过生物电的活动来实现的。脑电压是大脑神经细胞电活动的重要表征。脑电图EEG(Electroencephalog
三维自然场景的渲染是虚拟现实、游戏影视娱乐、地理信息系统等共同的研究舞台,具有广泛的应用前景。而复杂的自然场景中,不仅包括大规模的地形,还包括各种数量庞大的植被等,再加
随着服务计算理论与技术的发展,单个Web服务往往因为服务颗粒度的限制而不能很好地满足用户复杂的业务需求,因此这势必会要求Web服务组合及相关技术的出现。而Web服务的真正潜
随着高速铁路的飞速发展,高速铁路的安全与舒适成为当前研究的一个热点问题。安装在列车上的传感器采集的噪声数据反映了列车的运行状况,并与列车的安全息息相关。然而在噪声
Deep Web深度网络资源,又称作不可见网或隐藏网(译为Invisible Web or Hidden Web),它常常被人称为谷歌查不到的网络信息,这些信息不属于我们所熟知的那些标准搜索引擎所能够