论文部分内容阅读
随着互联网的飞速发展和Web日志数据爆炸式增长,海量日志数据处理越来越受到人们的关注。Web日志是网站服务器产生的,随着日志数据的增长,就形成了海量日志。对这些海量日志数据进行挖掘,可以从中分析用户行为特征、获取用户属性,也可以发现用户访问网站页面的模型和访问习惯,为网站管理员优化网站页面提供依据。 对这些应用已经有很多的研究,越来越多开源框架产生。如:Hadoop开源框架,它可以高效地处理海量数据。Web日志挖掘就是分析用户行为特征和挖掘用户信息产生的,本文将在着重讨论与研究相关的海量数据处理的同时,研究与设计一个基于Hadoop的海量日志数据处理平台,论文的主要工作如下: 首先,研究与讨论了相关的海量日志数据处理技术,主要是海量日志数据的收集服务器Scribe,以及海量数据业务处理等技术,而支撑这些技术的主要是Google的三大核心技术:BigTable,GFS分布式文件系统,MapReduce分布式编程模型。同时,还研究与讨论了基于Google三大核心技术原理而实现的一个优秀的开源项目:Hadoop项目。 其次,研究与讨论了海量日志数据处理平台的设计,主要是日志收集模块、统计分析模块、关联规则挖掘模块和数据UI模块的设计。同时,还研究与讨论了Hive海量数据仓库的原理和关联规则算法的改进; 最后,研究与讨论了基于Hadoop的海量日志处理平台的实现,首先对日志进行收集,经过数据预处理,与Hive数据仓库和关联规则挖掘算法相结合,实现了日志数据的总体统计、访问量统计、用户数统计、新用户数统计和Cookie重合度统计,以及关联规则算法挖掘,结果在数据UI模块中以报表展现,最终实现了海量日志处理的研究与应用。 实验表明,论文设计与实现的数据处理平台的统计结果的准确和可信,并且得到所需要的关联规则模型。帮助网站进行优化,具有良好的实用性,对现有的日志处理应用是一个良好的补充。