云环境下科学工作流数据布局策略的研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:snowmanuser
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的逐步推进,科学工作流得到了广泛的应用。特别是在科研领域的应用更是广泛,如天文学,高性能物理学等。由于科学工作流需要的数据规模很大,为了执行科学工作流,不仅需要很大的存储空间,而且还需要有很强的计算能力和数据共享能力。随着科研任务的日渐复杂和科研问题的日益多样化,如何确保科学工作流的高效执行已成为业界重要研究的问题。云计算是基于网格计算、并行计算和分布式计算等的一种新型计算模式,其为科学工作流提供了一种更好的数据处理方案。云环境有巨大的存储空间和很强的计算能力,但是运用云计算解决科学工作流问题仍然存在许多新的挑战。云计算平台是由多个数据中心所组成,数据存放在它的各个数据中心。随着科学工作流的日益复杂,巨量的数据需要在各个数据中心之间进行传输和交换,这将导致任务执行效率的低下。因此,如何实现更好的数据布局,以显著减少数据的移动规模和移动数据所带来的时间消耗成为了一个崭新的研究课题。本文研究的主要问题是数据布局策略,以此优化云环境执行科学工作流的效率。首先,针对目前已经提出的基于聚类算法的布局策略进行仿真分析。由于已有的聚类算法仅考虑了数据集规模的大小,没有考虑数据中心之间带宽的情况。所以当移动数据规模较大而带宽较小时,任务执行效率将明显下降。本文在数据集移动的规模和带宽对数据布局优化影响的基础上,设计了改进的基于聚类的数据布局策略。改进的聚类算法先基于数据之间的数据依赖程度进行数据的初始化布局;接着在任务执行阶段综合考虑带宽的对性能的影响,对任务进行合理调度;最后对中间生成的新数据进行优化布局,从而提高系统的综合性能。仿真结果证明,改进后的聚类策略能有效减少数据移动的规模和移动数据所消耗的时间。随后提出了两阶段的数据布局策略TSDPS (Two stages of data placement strategy),根据布局数据的不同在各个阶段分别采用相应的算法进行布局。在初始化阶段采用启发式遗传算法,综合考虑到数据之间依赖度和整个云环境的负载均衡,设计了合理的适应度函数,对初始化数据优化布局;在运行时阶段则采用启发式K-Means算法,同时考虑了带宽的影响以及执行任务所带来的数据移动的时间消耗,并对所产生的数据进行布局。通过仿真结果证明,本文所提出的算法有效的减少了移动数据消耗的时间和使整个云环境实现了更好的负载均衡。
其他文献
随着道路基础设施建设速度满足不了机动车增长速度的矛盾日益突出,交通信息化建设成为缓解该矛盾的关键。交通流量是实现交通信息化的基础,实时、准确的短时交通流预测信息对实
RFID(RadioFrequencyIdentification)技术是基于电磁信号检测的无线电通信技术,利用无线射频方式进行非接触的双向通信,以达到识别移动物体的目的。RFID标签具有体积小、容量大
即使在进行云迁移时存在许多大的挑战(例如:安全性和可靠性),但是实用的云计算解决方案已经成为IT领域不容忽视的事实;同时,许多研究者正在接受这些挑战。云计算是一种信息处理模
用分形思想模拟的自然景物在虚拟现实环境中的应用越来越广泛。而迭代函数系统(IFS)作为分形理论的一个分支,在一大类物体的建模问题中具有很大的优势,特别是对自然景物的计
云计算是当前网络技术领域的热门话题之一,是产业界、学术界、政府等各界均十分关注的焦点。在云环境下,网络数据分布呈现复杂化、多样化、动态化,对web服务安全提出了更高要求
物体形状轮廓的多边形近似是计算机视觉和图像分析领域的一个基础问题,相关算法已被广泛应用于形状匹配、目标识别、形状检索、形状编码等视觉与图像分析任务。本文首先概述多
无线传感器网络是由大量的传感器以自组织和多跳的方式构成的无线网络,实时协作地感知、采集、处理和传输网络覆盖地理区域内被感知对象的信息,并最终把这些信息发送给网络所有
非真实感绘制(Non-photorealistic rendering,NPR)是计算机图形学的一类。自20世纪90年代中期,非真实感绘制逐渐成为计算机图形学的研究热点之一。非真实感绘制指的是利用计算机
随着我国改革开放的深入和全面建设小康社会目标的实施,我国的经济实力和居民生活水平得到了大幅提高,人员和货物流动空前活跃,使道路建设和交通管理日显滞后。机动车的拥有
作为智能的交通系统的基础之一,车载自组织网络的目标是为移动车辆节点提供一个移动的通信平台,能够提高交通的通信效率、降低事故发生率,使得乘客都能方便的、快捷的接入到互联