论文部分内容阅读
随着互联网的高速发展,网络资源不断丰富,大量的网站和应用每时每刻都在产生海量的运行日志数据,在这些数据的背后隐藏着巨大的价值。对网络日志数据进行分析,能够实时了解服务器的运行情况,深入的实时洞察用户的行为特征以及把握当前网络的实时热点问题。本文对当今主流的以Storm为基础的实时流处理系统进行了深入的调研和分析,发现以Storm框架为基础的处理系统在计算任务调度方面具有以下不足:系统资源分配不合理、系统稳定性不高、资源的利用率以及性能等方面有待提升,并且缺乏一个高可拓展性的集群监控系统。本文利用现有的开源框架设计并实现了一个基于Storm实时计算框架可靠的高效的海量网络日志数据实时处理系统,并对Storm框架的任务调度进行了优化,增加了一个具有高可扩展性的监控模块。论文主要的研究内容包括:1.基于Flume、Kafka和Storm等开源框架搭建了一个具有高稳定性、高可拓展性并且可以对日志数据进行采集、预处理、分析计算和结果展示的系统;2.设计了一个基于滑动窗口模型的数据处理模式,提高Storm系统对海量数据计算的效率;3.在Storm系统中设计了自适应动态流控制算法并且自定义了一个任务调度算法,充分考虑了 Storm计算组件的负载均衡,提高了系统的吞吐量和计算效率;4.设计了可拓展的Storm计算集群的监控模块,可以对Storm集群的软硬件和拓扑的运行进行监控。本文的主要成果为设计并实现了一个用于实时处理、分析海量日志数据的可监控系统,使用者可以实时分析自己应用的运行状态与实时挖掘用户需求,同时还可以监控计算集群节点与任务的运行状况;用户可以更加安全、可靠地进行海量日志数据实时分析处理。