论文部分内容阅读
随着网络技术以及并行计算的快速发展,采用高速网络连接大量PC形成的集群以高性价比的优势渐渐取代了超级计算机在科研生产以及高性能计算中的地位。随着集群的兴起,大量的集群管理系统应运而生,主要是用来合理地调度以及管理集群中的各项资源。其中作业调度又是集群管理系统中的核心之一,作业调度是否高效决定了整个系统的资源利用率以及作业吞吐率的高低。TORQUE以其开源性以及稳定性已经被广泛使用,但是其默认的调度器在资源调度时只是简单的实现了Round-Robin,作业调度效率不高,并且也没有针对并行应用程序进行特定的调度。为了实现更好的调度效果,本文首先根据TORQUE源码和文档对调度框架深入研究,并对常用调度算法进行分析,提出了两种新的调度算法:基于剩余计算能力的自适应负载均衡算法和基于分散-聚合的并行应用调度优化算法。前者主要针对集群作业的调度,考虑节点间剩余计算能力的均衡,达到能者多劳的效果,并且算法中考虑在整个系统已经达到均衡的时候会关闭负载均衡算法,以简单的调度算法替代,降低系统调度的额外消耗。后者则是考虑集群中并行任务的调度,以分散和聚合两种操作对调度方案不断优化,达到并行最大化,提高作业的执行效率。实验部分对新的调度算法进行测试,在提交大量作业的情况下,与其他调度算法进行性能比较,结果证明,新的调度算法缩短了作业的平均相应时间,提高了系统的资源利用率。