基于海量网络日志数据的实时流处理系统的设计与实现

来源 :北京邮电大学 | 被引量 : 8次 | 上传用户:kfqwyf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展,网络资源不断丰富,大量的网站和应用每时每刻都在产生海量的运行日志数据,在这些数据的背后隐藏着巨大的价值。对网络日志数据进行分析,能够实时了解服务器的运行情况,深入的实时洞察用户的行为特征以及把握当前网络的实时热点问题。本文对当今主流的以Storm为基础的实时流处理系统进行了深入的调研和分析,发现以Storm框架为基础的处理系统在计算任务调度方面具有以下不足:系统资源分配不合理、系统稳定性不高、资源的利用率以及性能等方面有待提升,并且缺乏一个高可拓展性的集群监控系统。本文利用现有的开源框架设计并实现了一个基于Storm实时计算框架可靠的高效的海量网络日志数据实时处理系统,并对Storm框架的任务调度进行了优化,增加了一个具有高可扩展性的监控模块。论文主要的研究内容包括:1.基于Flume、Kafka和Storm等开源框架搭建了一个具有高稳定性、高可拓展性并且可以对日志数据进行采集、预处理、分析计算和结果展示的系统;2.设计了一个基于滑动窗口模型的数据处理模式,提高Storm系统对海量数据计算的效率;3.在Storm系统中设计了自适应动态流控制算法并且自定义了一个任务调度算法,充分考虑了 Storm计算组件的负载均衡,提高了系统的吞吐量和计算效率;4.设计了可拓展的Storm计算集群的监控模块,可以对Storm集群的软硬件和拓扑的运行进行监控。本文的主要成果为设计并实现了一个用于实时处理、分析海量日志数据的可监控系统,使用者可以实时分析自己应用的运行状态与实时挖掘用户需求,同时还可以监控计算集群节点与任务的运行状况;用户可以更加安全、可靠地进行海量日志数据实时分析处理。
其他文献
5个2L的聚酯瓶转化而来的纤维足够织1件大号T恤;20个2L的聚酯瓶转化而来的纤维便可蓄1件冬衣;35个2L的聚酯瓶转化而来的纤维可以制造1个睡袋;40个2L的聚酯瓶转化而来的纤维可
新型农村社会化服务体系突出“政府主导、财政扶持、组织整合、机制创新、市场运作”。凉山州供销社构建新型农村社会化服务体系,应积极推进农村基层政府服务职能改革,整合供销
本文以时间为脉络,梳理出四川地区筝乐创作的发展概况。新中国成立后,靠几位前辈老师艰难起步,做了一些力所能及的改编。1980年代以后,创作的新生力量开始注入,除了大量弹筝
目的观察益母固肾汤联合主动免疫治疗不明原因复发性流产的临床疗效。方法将56例不明原因复发性流产患者随机分为治疗组与对照组,每组28例。对照组予主动免疫疗法,治疗组在对
中学生数学问题解决是一种高级的心智活动,它同其它任何一件事物一样,有着自身的发展规律,因循这个规律,才能进行有效的学习,违背这个规律,就不能有良好的收效。因此,需要运
<正>一、前言随着全球经济一体化步伐的加快和我国改革开放的进一步深化,当今社会主要短缺的人才方向就是商务英语。商务英语是以适应职场生活的语言要求为目的,内容涉及到商
为了解决蔗田长期使用单一除草剂带来的抗性问题,筛选高效、安全、环保的除草剂新配方,2016年特在广东湛江进行了几种除草剂配方筛选及对照试验。结果表明:硝磺草酮+氯吡+莠
农民工在现代城市生活中遭受到如制度、经济、文化、社会组织和地域空间等多维因素的社会排斥,导致体育话语权的缺失,而当前以户籍制度为核心的城乡分割制度无疑是造成这一现
<正>小组合作学习是一个古老的却又有旺盛生命力的富有创意的教学理论与方略。如今的小学语文教师们都能意识到合作学习的重要性,但不少却浅尝辄