基于Hadoop的海量日志数据处理研究与应用

来源 :厦门大学 | 被引量 : 0次 | 上传用户:sophiayingfeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展和Web日志数据爆炸式增长,海量日志数据处理越来越受到人们的关注。Web日志是网站服务器产生的,随着日志数据的增长,就形成了海量日志。对这些海量日志数据进行挖掘,可以从中分析用户行为特征、获取用户属性,也可以发现用户访问网站页面的模型和访问习惯,为网站管理员优化网站页面提供依据。  对这些应用已经有很多的研究,越来越多开源框架产生。如:Hadoop开源框架,它可以高效地处理海量数据。Web日志挖掘就是分析用户行为特征和挖掘用户信息产生的,本文将在着重讨论与研究相关的海量数据处理的同时,研究与设计一个基于Hadoop的海量日志数据处理平台,论文的主要工作如下:  首先,研究与讨论了相关的海量日志数据处理技术,主要是海量日志数据的收集服务器Scribe,以及海量数据业务处理等技术,而支撑这些技术的主要是Google的三大核心技术:BigTable,GFS分布式文件系统,MapReduce分布式编程模型。同时,还研究与讨论了基于Google三大核心技术原理而实现的一个优秀的开源项目:Hadoop项目。  其次,研究与讨论了海量日志数据处理平台的设计,主要是日志收集模块、统计分析模块、关联规则挖掘模块和数据UI模块的设计。同时,还研究与讨论了Hive海量数据仓库的原理和关联规则算法的改进;  最后,研究与讨论了基于Hadoop的海量日志处理平台的实现,首先对日志进行收集,经过数据预处理,与Hive数据仓库和关联规则挖掘算法相结合,实现了日志数据的总体统计、访问量统计、用户数统计、新用户数统计和Cookie重合度统计,以及关联规则算法挖掘,结果在数据UI模块中以报表展现,最终实现了海量日志处理的研究与应用。  实验表明,论文设计与实现的数据处理平台的统计结果的准确和可信,并且得到所需要的关联规则模型。帮助网站进行优化,具有良好的实用性,对现有的日志处理应用是一个良好的补充。
其他文献
煤炭的开采处于高危环境下工作,生产环节多,系统复杂,机电设备种类繁杂,并且协同工作关系复杂,必须做到统一管理和调度。因此,对井上、下不同作业场所的生产现状和设备运行数据的采
随着计算机网络通信技术的迅速普及,在日常生活中,数字图像的使用变得越来越频繁,保证其安全已经得到了大家广泛的关注。由于图像具有信息量大、相邻像素的关联性强的特点,传
近年来温室监控系统发展迅速,由于温室监控区域较大,因此需要大量的传感器节点构成大型监控网络,通过各种传感器采集温度、湿度等相关信息,实现自动监控。数据融合技术是解决
近年来,随着互联网应用的迅速发展和云计算技术的广泛应用,数据存储量呈现爆炸式增长。如何在大规模数据集中找到人们感兴趣的数据,帮助人们做出有效的决断,是一个亟待解决的
作为计算机辅助诊断系统的关键技术,医学图像分割问题一直是图像分割问题领域的热点话题。由于医学图像自身的多样性和复杂性,传统的分割方法不能良好的适用于医学图像分割,
无线传感网络(Wireless Sensor Network, WSN)作为一种新型的数据信息获取和处理模式,已广泛应用于军事航空、空间探索、环境监测和健康医疗等领域。然而在实际应用中,无线传
基因芯片技术为疾病诊断、治疗以及新药物的开发提供了新的方法和手段。同时,基因芯片技术的运用也产生了大量的疾病相关的基因表达数据。对这类数据进行分析和处理,使人们能
对物理事件的监测型应用在无线传感器网络与信息物理融合系统中被大量的使用,随着工业技术的发展,节点配备高级的感知部件变得越来越可能,如配备照相机。然而现有的文献没有研究
多语种交互是自然语言处理的重要研究方向,对不同语言下的数据进行分析和融合变得越来越不可或缺。已有文本分类器的规则大多数都是针对一种语言训练的,在转换语言领域的时候
随着智能移动终端市场的蓬勃发展,由谷歌推出的Android智能移动终端平台也开始崭露头角。在开放手持设备联盟(OHA,Open Handset Alliance)的推动下,Android系统以其开源的特性越