作业感知的Hadoop集群网络调度方法研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:chrisfei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,数据呈爆炸式增长,数据中心已经成为处理大数据的核心基础设施。为了能够快速有效地分析和提取数据中有价值的信息,研究人员提出了分布式计算框架,如Hadoop、Dryad等。这些框架将大数据划分成多个数据分片,利用集群中数以千计的机器并行的处理每个数据分片,最后通过网络传输分片的结果并汇总成最终的结果。提高集群利用率,减少运行应用的完成时间是每个数据中心的共同目标。在数据中心中,大数据应用框架如Hadoop在不同的运算阶段会产生大量的网络传输,已经成为影响应用性能的重要因素。通过对网络流的调度可以提高应用的性能。传统的方法大多数从网络流的角度进行调度,并没有考虑网络流之间的相关性。本文以Hadoop作为具体的实例,从应用层获得shuffle阶段网络流的信息,并根据shuffle阶段网络流的特点采用基于作业的优先级调度方法对数据流进行调度。首先,我们观察到关于shuffle阶段网络流的信息存储在Hadoop应用框架的临时文件和日志文件中。因此我们可以从从应用层来获得网络流信息。通过对这些文件的实时监控和分析,我们可以获得网络流信息和相互依赖关系。其次,我们利用全局视图,采用基于作业的优先级调度方法优化shuffle阶段网络传输。关键在于为所属相同作业的网络流分配相同的优先级。采用优先级调度策略,高优先级的网络流优先获得网络资源。通过这种优先级分配方式,使shuffle阶段一个作业的网络流能够尽快地一起完成,避免因为某一个网络流的延迟导致作业长时间的等待。我们从路径管理和交换机端的缓冲队列管理两个角度出发,为作业分配网络资源。在Fat-Tree拓扑下,我们提出flow-based 和 spray两种利用等价多路径的方法,实现网络上的负载均衡。在交换机端,我们设置多个优先级队列,提出队列管理方法。数据包在到达交换机时根据分配的优先级,加入到相应的优先级队列中。最后,在NS2网络模拟平台上模拟我们的调度方法进行大量对比实验。实验结果表明,基于作业的优先级调度方法能够减少shuffle阶段作业的平均完成时间,而且对于最高优先级的作业能够明显减少其网络传输的完成时间。同时,为了使模拟实验结果更加接近真实网络情况,我们设置背景流量情境、调度延迟情景和链路失效情景,在不同情景下运行对比实验。实验结果表明基于作业的优先级调度依然具有优化shuffle阶段网络流的性能。
其他文献
数字化信息的爆炸性增长,对存储系统的性能、扩展性和可用性等提出了较高的要求。磁盘阵列(Redundant Array of Independent Disk, RAID)作为存储系统中的核心存储设备,其以可靠
随着网络和信息技术在银行和电子商务等领域的广泛应用,人们对信息安全的要求越来越高。传统的信息安全技术,如防火墙、入侵检测、病毒防范等从外部对系统进行防护的方法已不
随着网络融合、通信市场的开放,电信市场上形成了激烈的竞争格局。这些都要求能够快速、灵活提供业务的网络管理能力。在这种情况下,网络管理系统需要由固化、面向结构、面向
随着科学技术的发展和人类社会的进步,人类从对自然的研究发展到对社会的研究,又发展到对人脑思维的研究,而脑电的信息处理研究正是这方面的典型领域。小波分析作为一种新的
随着信息技术尤其是Internet相关技术的发展与成熟,人们已经进入一个信息海量、高速化的时代。这就对人们传统的上网方式提出了挑战,即能否更快更全的找到并接收你感兴趣的信息
无线传感器网络的主要任务是采集环境数据,但是由于其通常部署在敌对区域,网络信息容易遭到敌对方的恶意篡改和伪造,因此如何保证网络收集到的数据的完整性、可靠性与新鲜性
基于机器学习的信息抽取方法性能依赖训练语料的质量和数量。然而标注数据在不同语言分布不均衡,阻碍了中文的信息抽取研究。针对这一问题,研究人员提出跨语言信息抽取方法,
网络与数字技术的发展在促进社会发展的同时也带来了许多负面影响,数字产品的版权保护已经成为了一个需要迫切解决的问题。叛逆者追踪的研究成果对在广播加密领域(如付费电视
移动自组织网络(Mobile Ad-Hoc Network,简称MANET)是一种移动通信和计算机网络相结合的网络,是移动计算机网络的一种。它因为组网灵活、不需要地面设施、无严格的中心节点、
无线Mesh网络是一种新型的无线网络,它是由无线链路、路由器和终端设备组成。它有着多跳、自组织、自愈、高容量、高速率特点,具有很好的应用前景。路由协议研究是目前无线Me