论文部分内容阅读
随着信息系统在传统的IT产业和电力、能源、交通、物流等越来越多的产业中发挥关键作用,承担主要业务和企业内部管理等功能,随着大数据时代通过巨大的计算能力和存储能力发掘出数据的更新、更重要的价值,数据的重要性上升到关键资源的层次。海量数据的备份和恢复让传统的数据保护方法显得维护成本高和恢复时间长,数据安全性降低。数据备份和保护,以及数据恢复不仅是政府和大型企业的需要,越来越多的中小企业也需要依赖数据备份和恢复等面向灾备的软硬件保证业务和数据。目前主要存在的问题包括:1.海量数据的备份和恢复需要存储成本大,恢复时间长;2.在云存储等分布式集群上,较少研究针对灾备需求;3.多个副本放置需要高效、快速的算法,利用分布式系统上的资源能力。本文主要工作是:1针对分布式存储集群系统中保持副本高可靠性和高可用性的副本技术,调研了副本创建、副本数调整、副本选择和副本放置等副本策略的改进和优化算法,调研了提高集群性能和改善集群负载均衡的现有技术现状。2设计了一种面向数据灾难恢复的副本管理多目标优化算法DR2S:提出了一种基于离散多目标粒子群优化算法的副本放置技术,该技术优化备份数据的管理成本目标和数据恢复的读取时间目标,首先构建了离散的多目标粒子群模型描述灾备数据副本的放置,然后定义了在粒子群算法中粒子的更新操作,接着描述了在算法过程中的特定步骤的处理方法和整体算法流程。3针对上一部分设计的DR2S策略,提出了在MapReduce并行模型下实现此策略的改进方案和整体算法流程。通过实验验证,DR2S策略能够优化数据副本放置的成本目标和数据恢复的读取时间目标,并行执行的DR2S算法运算时间有了明显减少。4在分布式数据灾备管理平台上设计了一个备份数据管理模块。针对本文研究的内容,将文中提出的算法进行模块化处理,整合到分布式数据灾备管理平台上,应用于在HDFS分布式存储集群中管理文件块。