云环境下数据副本选择策略研究

来源 :内蒙古科技大学 | 被引量 : 0次 | 上传用户:fionazj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着云计算的兴起与发展,云存储技术也迅速发展起来。传统的文件系统已经不能满足云存储服务的需求,因此,分布式文件系统作为云存储的关键技术也日益重要起来。目前,互联网上应用最多的分布式文件系统有谷歌的GFS、Hadoop的HDFS以及MooseFS等。这些分布式文件系统中的存储节点大多采用性能不高的PC机,为避免这些PC机因无法预知的硬件设备损坏、电源中断、黑客攻击、病毒入侵、火灾、地震及恐怖袭击等情况发生时造成的数据损坏和丢失带来的数据不能正常访问现象,分布式文件系统一般采用数据备份的方法,即副本技术,就是将同一数据存储到不同的存储节点上。系统中引入副本技术后,当客户端访问分布式文件系统中存储的数据资源时就会存在选取哪个存储节点作为访问对象的问题。分布式文件系统GFS和HDFS采用计算距离的方法来选择数据副本,每次选择离用户最近的存储节点来读取数据,而MooseFS选取的是读写次数最少的存储服务器来读取数据。GFS、HDFS和MooseFS都是网络分布式文件系统,数据存储服务器和客户端之间是通过网络传递数据的,所以数据存储服务器带宽的大小会直接影响到客户端读取数据的速度。带宽大小与客户端读取数据的速度成正比。在MooseFS数据副本选择算法中,虽然各数据存储服务器I/O负载均衡,但每次选择的数据存储服务器的带宽不一定是最好的,导致客户端读取数据的速度较慢。本文提出了基于带宽的蚂蚁算法的数据副本选择算法。蚂蚁算法是一种启发式算法,它是通过利用与环境的动态交互获得的反馈信息来调整自我,获得最佳解的过程。蚂蚁算法已经被广泛应用于许多求解最优解的问题中,如TSP分配问题、网络路由、任务调度及着色问题等。在MooseFS分布式文件系统中,选择一个最佳副本也是最优化问题,并且蚂蚁算法具有正反馈性、协同性和并行性,算法的可扩展性适合于节点动态随机变化的分布式文件系统,这些特性使得蚂蚁算法适合解决分布式系统中的数据副本选择问题,所以在理论上基于蚂蚁算法的数据副本选择算法具有可行性。实验测试结果显示,基于蚂蚁算法的数据副本选择算法提高了客户端读取数据的速度,降低了客户端访问数据的时间。
其他文献
互联网的快速发展对大规模数据处理技术提出了新的挑战,目前业界广泛使用的数据处理系统多数基于Google提出的MapReduce并行处理框架,MapReduce在处理静态批量数据时优势明显,然
我们生活在一个信息时代,每天接触的信息不计其数。而图像作为信息载体之一,是人们获取信息的有效途径。科学研究表明,人类接受的外界信息有3/4是通过视觉器官来得到的。与声音
社会化标注是用户产生的用于描述网络资源的关键词,区别于传统的自上而下的信息传播方式,社会化标注来源于广大的互联网用户,作为一种新兴的重要的信息资源,能够与广大的互联
中国的高速铁路这些年快速发展,其对公众生活影响愈发广泛。高速铁路的安全运行关系到旅客的健康和生命,显得尤为重要。高铁接触网作为向电力机车供电的设备,其上有可能附着
随着Web2.0的快速发展,网站对于Ajax技术的应用越来越多。Ajax技术通过异步调用,进行页面局部刷新,在很大程度上提高了用户的体验度、减少了网络传输流量以及提高了网站的访问速
本文研究了基于视频图像实时传输和光谱数据采集的作物病虫害采集终端,以及远程控制终端搭载的农药喷洒设备进行动作的技术。首先,针对当前作物病虫害防治领域存在的问题和不
近年来,随着互联网、数据存储以及计算技术的飞速发展,使得信息的收集与分析变得越来越便捷、完整与精确。然而,这些以信息共享、数据挖掘与知识发现等为目的的数据发布过程
离散元方法(Discrete Element Method)是将计算的对象离散成大量相互独立的单元,并定义单元间相互作用的方法。通过离散元的方法可以解决很多现实中的问题,如模拟泥石流、滑
随着各国政府对健康医疗信息系统的投入,电子病历信息挖掘得到越来越多学者的关注。电子病历中蕴含的知识能够应用在医疗诊断、用户制定健康计划和医疗问答等领域中。概念抽取
社交网络上存放了大量的个人数据,现有的社交网络在保护用户个人数据方面存在着不足,造成了大量的个人隐私信息的泄露。社交网络以提供信息的共享为目的,在信息共享的条件下提供