Hadoop作业调度算法分析与优化

来源 :武汉理工大学 | 被引量 : 1次 | 上传用户:owenyhz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着技术的快速发展,互联网的使用人群急剧增长,数字化信息呈爆炸性增长,大数据的分析处理成为研究的热点。仿照Google公司MapReduce计算模型和GFS文件系统设计思想实现的Hadoop开源软件迅速发展并成为大数据处理的首选工具。Hadoop平台为用户提供了方便的编程接口并合理安排用户作业的调度执行,用户只需专注于map和reduce处理过程。作业调度器合理安排作业任务的执行来合理利用集群计算资源,是Hadoop平台的核心模块之一,目前有FIFO调度算法、计算能力调度算法和公平份额调度算法三种实现供选择使用。FIFO调度算法思想简单,易于实现,但不支持多用户多作业共享集群资源,计算能力调度算法和公平份额调度算法实现了多用户多作业对集群资源的共享,提高系统吞吐率,降低作业响应时间,但需要系统管理员对集群资源状况和用户和作业类型有充分了解从而合理进行各项配置。本文在介绍国内外Hadoop作业调度研究现状的基础上,分析Hadoop现有各调度算法设计思想与调度策略并针对公平调度算法中slot资源分配方法提出改进,然后分析了各调度算法的优缺点并指出现有调度算法难以正确配置的不足,提出了基于贝叶斯分类的作业调度算法,该算法通过贝叶斯学习与分类让作业在计算节点上的运行尽可能使计算节点不过载,在此基础上,对作业进行资源需求分类预处理,使CPU密集型作业和I/O密集型作业得到合理调度,从而更高效利用计算资源。主要研究内容如下:(1)分析Hadoop中FIFO调度算法、计算能力调度算法和公平调度算法的算法核心思想、使用配置并给出了伪码和流程图形式的算法描述、复杂度分析和算法特点及优缺点分析。同时,对公平调度算法的slot资源分配方法进行了改进,在原有slot资源分配方法基础上增加对剩余slot资源的尽可能平均分配,使得各资源池获得更为公平的份额。(2)为克服使用现有调度算法时难以正确配置的不足,提出基于贝叶斯分类的作业调度算法,该算法通过分析作业任务执行历史信息将作业对资源使用的特征和计算节点的资源状态特征构造贝叶斯分类器,在学习作业任务执行时资源使用历史信息将作业在某计算节点分为可调度和不可调度两类,使得作业任务在计算节点上的执行尽可能不使计算节点过载,从而提高调度准确率并使得计算资源得到合理使用。(3)为进一步提高计算节点的资源使用率,将作业按照资源需求类型情况分为CPU密集型作业和I/O密集型作业的预处理,进行分类调度使得计算资源得到更充分的利用。(4)结合实验对该算法的作业任务调度准确率、作业响应时间、集群资源利用率等性能指标做出评估并与现有调度算法进行比较分析。
其他文献
目前,市场上商品假冒伪造现象严重,但传统防伪方法不能完全满足防伪要求。短信数字防伪技术,是目前国内最先进的商品防伪技术,是借助先进的移动通信技术和移动信息终端,并采用加密
在社会经济大系统中,证券投资组合已成为金融管理和投资决策的重要组成部分。马柯维茨以证券投资收益率的方差作为组合证券风险的度量,开辟了金融定量分析的时代,并在此基础上建
J2EE作为现今最流行的分布式计算平台,已成为基于Web的企业应用系统的核心。但多层的J2EE体系结构在提高软件重用性和降低问题复杂性的同时,也使得代码庞大,层与层之间的控制
聚类是重要的数据挖掘技术,在海量数据统计、网络分析及医学图形图像自动监测等领域具有广泛的应用背景。聚类就是根据数据的内在特性将数据对象划分到不同的组(或簇)中,使得
目前,并行计算技术是计算机研究的一个热点。在各种并行系统中,机群系统以其显著优势已经成为高性能计算领域的一种主流平台。结点处理能力的不断加强使得内部结点机之间的通信
随着Internet的普及和全球化程度的提高,为降低产品的开发成本和提高开发效率,产品设计正由传统的串行工作向支持并行工作转变,从孤立模式向协同模式转变。计算机支持的协同
图像配准是数字图像处理中的一个重要的研究方向,也是计算机视觉和模式识别领域中的一项重要的研究课题,图像配准已经在军事、航天、模式识别、遥感监测、医学图像处理等方面
随着Internet的迅速发展,网上信息飞速增长,人们面对种类繁多的各类信息,却缺乏有效地自动获取信息的方法。本文针对传统的推送技术存在的忽视用户需求、推送信息针对性不强
网络与电子信息技术己经渗透到人们的日常生活中,它改变了传统的事务处理方式,对社会的进步和发展起重大作用。与此同时,人们也越来越意识到信息安全的重要性。在自动化办公
随着视频会议、视频点播、远程教育等分布式实时业务的广泛应用,作为其核心技术的QoS组播技术引起了人们的高度重视。组播是一种有效的支持多点通信的机制,它采用树转发结构,