论文部分内容阅读
随着大数据的时代的到来,大数据技术发展迅猛,其中最为典型的变化是计算模式的丰富多样,由最初的批处理计算发展到后来的流计算,实时交互式计算等。但不同的计算框架的应用场景比较有限,批处理计算虽能轻松处理海量数据,但响应时间较长;与批处理不同,流式计算是一种连续计算的模式,能够快速响应用户事件;实时交互计算以一种交互式的方式实现大数据处理,也有着快速的响应速度。由于大数据应用场景越来越复杂,传统的单一计算框架模式不能很好的满足数据应用的要求。现在出现了一些关于混合系统的研究,旨在融合多种计算系统,统一大数据计算平台提供多种计算服务。论文研究支持多计算模式的大数据系统。构建支持多种计算模式的统一大数据系统会面临多种问题,包括系统上层接口的不统一性,异构系统的差异性,集群资源统一调度的问题等等。本文研究试图解决以上问题,研究重点为统一的语言抽象层研究,多计算框架支持,编译优化,成本模型评估这四大部分。设计并实现了支持多计算模式的系统原型,在用户层,为了提升系统的易用性,以类SQL语言做查询层语言。目前支持批处理与流处理这两种计算模式,用HBase作为存储端,提升实时查询性能,最大的特点是抽象出了一套分别针对MapReduce与Storm任务的成本评估模型,依据计算出的成本实现智能选择底层的计算框架。经过系统的测试对比,总体性能优于单计算模式的Hive,与SummingBird相当。由于系统可以智能选择计算框架,从整体来看,系统能够兼顾处理速度与系统的吞吐量。当数据量大时,系统的吞吐量比SummingBird的Storm引擎提升16~20%。当框架选择流计算框架时,速度比Hive约提升了33%。