基于Hadoop的作业调度方案研究

来源 :东北大学 | 被引量 : 1次 | 上传用户:LI0888888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着信息技术的进一步发展,企业数字化进程的不断加深,企业需要处理的数据也出现了爆发式的增长。为了提高企业的流程效率、盈利能力和产能,出现了一些列以云计算为代表的新技术。Hadoop是一个开源并行分布式计算平台,属于云计算中的PaaS服务层。Hadoop中的作业调度是指将系统中空闲的资源按一定调度策略分配给作业,调度策略的好坏关系到Hadoop集群的资源利用率、作业花费时间和集群的性能。本文分析了Hadoop中的MapReduce和HDFS架构,对Hadoop的调度过程以及如何编写调度器进行了介绍。目前Hadoop平台主要使用四种调度器,一是默认的FIFO调度器,二是Fair调度器,三是Capacity调度器,四是推测式任务调度器,本文介绍了这几种调度器的算法思想,在实验的基础上比较了四种调度器的性能,并分析了这些调度器的不足。在此基础上,本文给出一个作业调度方案,方案包括一个调度器和一个集群负载均衡算法,详细介绍了算法的核心思想,算法伪代码实现和方案所用的类图。在实验章节,通过使用java程序进行仿真实验,测试调度器所用的参数,得到了性能较优的参数组合。通过搭建Hadoop集群测试负载均衡算法的性能,然后在集群上部署完整的作业调度方案,分别在同构环境和异构环境中测试了调度方案的性能,将该方案和Hadoop原有调度器进行了对比,实验结果表明该调度方案在异构环境下,在作业的总运行时间、平均周转时间这两项指标上比原有调度器有更好的性能。
其他文献
网格系统的目标是实现大量异构资源的共享。由于网格资源具有动态性、异构性、分布性和自治性等特点,网格系统中资源分配已经成为了关键问题。经济学原理与传统的资源分配算
电子政务是指政府机构使用信息技术(比如互联网和移动计算),赋予政府部门以独特的能力,转变其与公民、企业、其他政府部门之间的关系。电子政务系统是使用Internet技术,向公
本文设计并实现了一个椭圆曲线密码引擎。整个系统分为协议模块、椭圆曲线运算模块、对称密码模块、数字摘要模块、密钥数据库模块、密钥导出模块和密钥管理模块七个部分。文
  本文就是从爬行虫入手,着重讨论爬行虫初始URLs的形成,如果初始URLs集是个性化的(根据用户的兴趣进行选择的),则搜索结果也必定具有用户个性化的特点。本文依此目标,就初始UR
随着无线通信、传感器技术、嵌入式应用及微电子技术的快速发展,人们可以很方便的获取周围所需的信息,为无线传感器网络的发展提供了广阔的前景。由于IEEE802.15.4标准协议具
随着信息安全越来越受到人们的重视,很多高校计算机系开设了信息安全专业,迫切需要一个安全产品实验平台。但是安全产品大多都是软硬结合的产品,配置复杂,很少在教学或培训中
本文分别从能量有效路由问题和移动性问题两个方面对移动自组网进行了研究。 本文对能量有效路由问题的研究。在对动态源路由协议深入研究的基础上,引入了节点的优先级机制
  首先本文以机器人足球比赛中三对三项目为研究对象,首先通过分析三对三项目中决策子系统需要解决的问题,决策子系统自身的特点以及设计时需要考虑的问题等诸多因素,设计了一
随着互联网的飞速的发展,网络安全的重要性越来越突出。如今,DoS攻击业已成为网络安全领域最为严重的问题,它利用众多受到入侵控制的主机,同时向受害者主机发起攻击,以达到消耗目
机器翻译是人们梦寐以求的翻译方式。机器翻译是指借助计算机自动完成语言翻译的过程。在目前所有的机器翻译方法中,统计机器翻译以其优异的翻译性能受到了极大的关注。在所