论文部分内容阅读
云计算并不是一个全新的技术,它是在并行计算、虚拟化、网格计算等技术上逐步演化和发展到现在较成熟的技术水平,现已无可争议地成为计算机科学发展趋势之一。云计算自身是一种思维模式,若想要真正发挥它自身的优势,不仅需要硬件设施,还要有编程模型来支撑和实现云计算的思想。而MapReduce编程模型可以实现云计算的思想,用于不同集群上可以分布式地执行用户提交的作业,而其执行性能与容错性成为了研究的热点。本文为提高MapReduce编程模型的执行效率,提出了优化Map输出结果传输的思想。首先设置一个合并文件大小的阈值,通过Map任务所在的节点根据Map任务结束时间的同时或先后,对其多个Map任务的输出结果将进行合并,然后输出文件,但合并后的文件大小不得超过设置的阈值。这样可以有效的缩短了传输到Reduce阶段的时间,从而提高了系统的执行效率。本文对MapReduce编程模型的自身容错机制进行优化。通过引入空闲节点监测即时消息传递机制,是通过同机架上空闲的TaskTracker节点来检查其他TaskTracker节点当前的节点情况,若检测出有的TaskTracker节点的状态为失效时,该节点失效的消息会立刻被发送到JobTracker节点,而不必等待心跳周期,其他信息仍然通过心跳通信机制来向JobTracker节点推送。这样也可以缩短了发现失效节点和纠正失效节点的时间。本文将改进的MapReduce应用于创新知识云平台,在集群中设计并实现了创新知识云平台实例分类管理系统。通过实验证明,基于改进的MapReduce框架上实例分类算法的效率得到了有效的提高,从而提高了创新知识云平台实例分类管理系统的执行效率。