分布式大数据处理系统的数据恢复机制优化研究

来源 :南京航空航天大学 | 被引量 : 0次 | 上传用户:gklyliu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据处理模式下,数据密集型系统强调为用户提供可靠和高效的存储和计算服务。随着数据量的增长,数据处理框架完成了由计算为中心到以数据为中心的转变。为了提高数据中心的性能,当前大数据处理系统Hadoop使用非易失性存储器NVM(Non Volatile Memory)作为数据的存储载体。由于NVM存在耐写性差的特点,在进行大数据处理时NVM极易损坏,进一步导致系统中的存储数据丢失。本文从最小化数据丢失后的恢复时间出发,对当前的数据恢复机制进行优化,有效提高数据恢复的性能。同时考虑到数据恢复对于计算作业的影响,本文提出了一种副本感知的分阶段数据恢复策略,通过优化分布式文件系统的数据恢复机制以及感知系统的计算负载协调进行数据恢复的时机,以均衡数据恢复和计算作业的性能。本文主要包括如下两部分工作:(1)针对数据丢失后数据恢复较慢的问题,本文提出了基于复制因子调优的数据恢复优化策略。本文中通过对HDFS(Hadoop Distributed File System)的数据恢复机制进行研究,并进行了广泛的分析和实验,发现数据恢复过程中集群中的网络带宽状况会显著影响数据恢复性能。通过优化复制因子以最大化数据恢复的带宽申请,从而获得最佳的数据恢复性能。与原生HDFS的数据恢复机制相比,使用本文提出的复制因子的优化策略,可以提升71%的数据恢复性能。(2)针对计算作业因为数据丢失而导致执行效率降低的问题,本文提出了副本感知的分阶段数据恢复策略。本文将数据副本的丢失程度和数据恢复任务的请求等待时间作为数据恢复任务的依据,每个心跳周期内优先进行最紧迫的数据恢复任务,同时也防止数据恢复任务长时间等待而造成的饥饿现象。此外,本文将计算的负载作为进行恢复的依据之一,以解决计算服务与数据恢复任务并行存在的资源竞争现象。结果显示,与原生HDFS相比,本文提出的副本感知的分阶段数据恢复策略在存在数据丢失时,可以提高32.5%的计算作业的执行效率。
其他文献
图像失真类型的判定对卫星遥感图像质量评价、卫星遥感图像复原以及光学遥感成像链路修正等多个领域具有非常重要的意义。基于卷积神经网络实现的基础上,根据人眼视觉特性以及图像失真的规律,分别提出了基于双通道卷积神经网络的图像单失真类型判定方法和基于多尺度多分类器卷积神经网络的混合失真类型判定方法。基于双通道卷积神经网络的图像单失真类型判定方法根据人眼主要对图像的中高频信息敏感这一规律,采用信息熵阈值截取的
学位
深度学习聚焦高阶思维,关注学生认知、探究等能力的提高;单元整体教学注重主题统领、内容整合,强调遵循学生的认知规律,提升学生的核心素养。二者具有共性,可融合设计,建构深度学习视域下的单元整体教学。具体教学中,教师可提炼单元主题意义,制订素养化学习目标和课时计划,整合单元学习内容,优化活动设计,实施多元化评价,以促进学生深度学习,提升学生的核心素养,进而实现语文学科的育人目标。
期刊
随着科技的进步和信息化技术的发展,计算机视觉在服装方面的应用也越来越广泛,智慧工地正是计算机视觉技术在工地场景下应用的产物,它在城市基础设施建设中正扮演越来越重要的角色。目前,针对工地场景下的安全性智慧识别仅仅限于对工人安全帽的监测,在工地服装领域还是存在以下问题:(1)在用计算机视觉方法来解决工地服装的分类问题时,服装样本的采集由于其特殊性较难获取,缺乏大量数据进行训练,极易导致模型过拟合。(2
学位
近年来出现了一些如Foursquare、Yelp等基于位置的社交网络(Location-Based Social Networks,LBSN)服务,通过它们,用户可以在系统推荐的兴趣点列表中选择他们感兴趣的地点去访问并签到。兴趣点(Point-of-Interest,POI)推荐服务既有助于用户探索新地点也可以帮助商家发现潜在客户,近年来受到了广泛关注。目前已有不少关于POI推荐的研究工作,不过潜
学位
复杂网络研究涉及社交网络、学术网络、万维网、蛋白质作用网络等很多领域中的抽象网络。社区结构挖掘是研究复杂系统的关键工具。探索和发现网络的社区结构对于了解复杂网络内在规律,开发其功能,预测其行为具有十分重要的意义和作用,特别是在大型复杂网络中进行社区划分,具有重要的实际意义。本文主要针对复杂网络中的社区发现算法展开研究,其主要工作和贡献如下:(1)针对标签传播在全局社区发现中,存在的不稳定性问题,提
学位
针对诸如“传感器”等电子类器件生产制造企业具有小批量、多品种以及需求变化快等特性,存在生产资源分配不均衡导致的生产效率低下的挑战,因此,高效的生产车间调度非要重要。本文以传感器动态生产车间的问题为研究对象,结合智能算法,解决了混流车间中遇到的资源分配与动态订单的问题。本文具体的研究工作如下:(1)针对传感器生产车间作业调度均衡性较差、生产过程中出现资源浪费的现象,提出了一种改进的布谷鸟搜索算法,通
学位
为了充分发挥现有武器装备的作战性能,达到防护效能的最大化,针对无人机"饱和攻击"的情况,通过分析防护效能的主要影响因素,以防卫目标损失最小、火力密度、火力纵深最大为目标函数,建立基于高密值大纵深的武器配置优化模型,制定"防卫目标周围部署原则"、"高价值目标优先保护原则"、"尽远拦截原则"和基于高密值大纵深武器配置优化算法,得到防卫目标损失最小、火力密度最大和火力纵深最大的部署方案。此方法解决了多防
会议
移动互联网及通信技术的发展带来了智能手机用户的爆炸式增长,人们习惯于使用智能手机上丰富的应用来方便自己的日常生活。然而智能手机在给人们的带来便利的同时,也带来了更大的隐私泄露和财产损失的风险。目前,智能手机上主要是通过配备一次性的身份认证机制来保证设备的安全,例如数字密码、指纹识别、面部识别等,但是这些机制具有安全性和易用性方面的不足。在安全性方面,一次性身份认证机制仅在用户获取设备访问权限时生效
学位
电网故障处置预案是调度人员电网故障处置经验的总结,是电网调度人员处理故障的参考手册。过去,为提高查阅效率,使用计算机存储和管理预案文本,并采用基于规则的模板库匹配方法辅助查找,这种方法存在实用性不强、处理方案维护困难、故障判定效率低等不足。因此本文开展基于深度学习的电网故障处置预案文本挖掘研究,利用自动化手段理解和分析预案中故障后电网运行方式和处置要点,挖掘故障后方式与处置要点之间的关联关系,使得
学位
RNA序列在生命的各种过程中扮演着非常重要的作用,其功能常常与其二级结构或者三级结构密切相关。本文主要基于并行化的蚁群算法研究了RNA一级序列到RNA二级序列的转变过程,同时为了对算法进行提速,研究了并行化对算法的影响。本论文的主要工作如下:(1)以串行算法为基础,提出并实现一种基于Open MP的多线程的并行蚁群算法。算法使用Mathew&Turner能量参数,通过局部优化的方法测算RNA不同结
学位