Hadoop集群调度优化的研究

来源 :上海师范大学 | 被引量 : 0次 | 上传用户:andysonz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年云计算技术的应用越来越广泛。由于云计算技术在互联网行业中的快速发展,数据的大小和复杂程度(大数据)急剧增加,促使Map Reduce和分布式文件系统,如HDFS(Hadoop分布式文件系统)成为分布式数据应用程序的首选模式。云基础设施的可扩展性显著提高了其适用性。Hadoop基于Map Reduce计算框架,因而可以高效的处理大数据。它的解决方案已经被广泛应用于大多数云供应商。Hadoop集群调度是满足性能要求的关键因素。Hadoop集群调度将任务分配到资源上。用可扩展的方式分配越来越多的任务和资源是一个相当大的挑战。此外,Hadoop系统的异构性会使挑战的难度增加。原始的Hadoop任务调度算法不能满足异构集群的性能要求。本文研究并分析了比较常用的Hadoop调度算法的性能。其中包括三种作业调度算法:FIFO算法,Fair Sharing算法,COSHC(Classification and Optimization based on Scheduler for Heterogeneous Clusters)算法,以及一种任务调度算法:ATSDA(Adaptive Task Scheduling strategy based on Dynamic workload Adjustment)算法。FIFO算法是大多数Hadoop集群默认的作业调度算法。它对作业队列的分配基于作业到达系统的时间,而忽略系统中的任何异构性。Fair Sharing算法用来补充FIFO算法在小作业和用户的异构性处理中缺点的Hadoop集群调度算法。该调度算法定义了每个用户的池,每个池由多个Map任务和Reduce任务的资源槽组成。COSHC算法是Hadoop调度算法考虑系统和用户的异构性做出的调度决策。通过使用该系统信息,COSHC将输入作业分类,并基于作业类和资源的功能找到该作业匹配的资源。在本篇论文中,我所设计的综合调度优化策略对Hadoop集群的作业调度和任务调度进行优化。一、综合调度优化策略在Hadoop集群作业调度中引入混合调度方法。该方法根据传入作业和可用资源的数量等信息,动态地选择FIFO算法,Fair Sharing算法,COSHC算法中最合适的调度算法。二、综合调度优化策略在Hadoop集群任务调度中采用ATSDA调度算法。ATSDA算法为基于动态负载调整的自适应任务调度算法。在ATSDA算法中,Task Trackers能够适应运行时的负载变化和自己计算能力的要求获得任务,实现自律的同时避开了Job Tracker系统性能瓶颈的主要原因:算法的复杂度。ATSDA是一种高效、可靠的算法,它可以提高异构Hadoop集群的稳定性,可扩展性,效率,和负载平衡性。此外,它在任务的执行时间,资源利用率,加速比等方面的性能优于原来和其他改进的Hadoop任务调度算法。
其他文献
随着信息时代科学技术的不断发展,对高性能计算提出了更高的挑战,如超级计算能力、海量数据、计算周期长等。网格计算技术的出现和发展为解决这些科学工程计算问题提供了途径
网络模拟,尤其是大规模的网络模拟通常都需要巨大的计算资源。当前普通的单机模拟器由于计算能力的限制,往往网络模拟的规模不能够满足实际的研究需要。因此,当前大规模的网
多媒体通信的迅猛发展对视频处理与传输提出了越来越高的要求。以交互式实时视频通信为代表的视频业务,由于其高带宽、低延时、低误码等要求使得视频业务成为整个多媒体通信
对人体生物医学信号进行采集和处理的便携式设备广泛地涌现在家庭保健和医疗领域。这种设备不仅可以对人体的健康状况做出初步判断,而且还可以作为医院临床辅助治疗装置。本文研究和设计的医疗保健设备对关系人体健康状况比较重要的血糖、血压和心电信号,采用不同于单次或简单多次的测量方式,运用动态长时间的检测方法,力求准确实时完整地反映出有关身体健康的生理参数。该设备设计的主要内容是对生物医学信号的数字处理。由于生
随着城镇化建设的不断发展,汽车已经得到普及,人们也越来越重视除基本生活外的精神建设。然而由于机动车的数量急剧增加、出行人数日渐增多,使得交通变得日加拥挤,引发了更多的交
随着市场竞争的日益激烈,各行业务需求的频繁变化,作为企业管理信息化、过程自动化的一项关键技术--工作流技术,其可靠性、完善性、可塑性、适应性研究成为当今研究热点之一。具
生物特征作为人类个体的内在属性,具有很强的个体独立性和区别差异性。因此,如何有效地将个人的生物特征应用于计算机智能信息处理应用领域吸引了广大研究学者们的浓厚兴趣,从而
SIFT特征匹配算法通过侦测与描述影像中的局部特征,所提取的特征点描述子对图像的旋转和尺度变换具有不变性,因此在图像处理领域应用广泛,但该算法也存在一些缺点。首先,SIFT
数学计算是新时代科学技术进步的重要标志之一。特别是随着计算机的问世,利用计算机进行高效地数学计算,在各个领域有着举足轻重的地位。 从数学计算分类来讲,一般分为符号计
知识发现和数据挖掘是人工智能、机器学习、数据库和统计理论等相结合而形成的新的研究与应用领域,序列模式发现是数据挖掘的一个重要分支,具有广阔的应用前景。随着信息技术日