论文部分内容阅读
高性能计算机的飞速发展使得系统管理工作变得尤为重要。要利用高性能计算机强大的计算能力,就必须通过有效的系统管理使其能够稳定的提供服务。作为院三层超算环境的建设单位和总中心,中科院超级计算中心的宗旨是面向科学院乃至社会提供尽可能强的高性能计算能力和技术支持。本文从中科院超算中心的实际需求出发,以向用户提供更好的计算资源和支撑服务为源动力,针对高性能计算机系统信息的获取和分析、系统性能优化、系统资源管理、用户作业管理等几方面问题分别进行了研究和讨论。论文的主要成果包括以下几个方面:
1.阐述高性能计算机系统管理的任务和内容,并提出评价高性能计算机系统管理工作的若干因素。
2.针对胖树结构Infiniband集群的网络通信冲突,提出根据实时子网信息开展优化工作以避免和缓解冲突的思路,并提出用于检测和处理通信冲突对的端口索引法,该方法的性能可以满足实际需求。
3.针对Infiniband集群中MPI并行程序通信性能优化问题,提出了通过优化进程映射方案来保障MPI通信性能的方法框架。以通信损失值cl作为评价指标,设计了进程映射优化方案的模拟退火搜索算法,实测表明针对给定通信模式优化的进程映射方案使相应的MPI通信性得到一定提升。
4.针对高性能计算集群作业队列划分及资源动态管理工作,以通信冲突系数cc作为评价指标,设计了队列划分优化方案的模拟退火搜索算法,优化方案能够使队列中的作业获得更好的通信性能;用参数估计的方法求取队列的负载度,并以此为参数设计了队列中节点资源的动态调整机制,用以平衡队列负载和降低系统功耗;
5.针对高性能计算机的用户作业调度机制问题,提出了基于用户及其作业情况评价的优先级调整机制,在该机制作用之下,得到更高评价的用户更容易获得更多的系统资源。
总而言之,高性能计算机的系统管理是包括多项复杂而又严密的工作的整体性工程,本文的工作也只是局限在某几个方面针对特定运行状况所产生的特定需求开展的相关研究和实践,并期望能够对其它类似工作提供一定的参考价值和指导意义。涉及系统管理的更多更具体的工作还需要通过更加深入细致的长期学习和实践来完成,并从中总结出理论和经验,这才是高性能计算机系统管理水平不断提高的动力源泉。