基于Hadoop的Web日志分析系统的研究与实现

来源 :西南石油大学 | 被引量 : 0次 | 上传用户：ahjon

【摘要】

：

互联网技术的快速发展,给人们的生活带来了翻天覆地的变化,人们在互联网浪潮中享受服务的同时,也在不断的向网络传播信息,由用户上网产生的日志数据日益膨胀,这些数据蕴含着

【作者】

：

褚福银

【出处】

：

西南石油大学

【发表日期】

：

2004年期

【关键词】

：

Hadoop Web日志数据挖掘日志分析 K-means

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

互联网技术的快速发展,给人们的生活带来了翻天覆地的变化,人们在互联网浪潮中享受服务的同时,也在不断的向网络传播信息,由用户上网产生的日志数据日益膨胀,这些数据蕴含着巨大的潜在价值,如何从海量日志数据中快速挖掘出有价值的信息,对人类社会的进步与发展具有重要的意义。日志数据具有数据量极大、分布范围极广、价值密度极低等特点,对日志数据的处理与挖掘并不是一件容易的事。目前大多数传统企业日志分析系统还是单机的,已经无法满足对海量日志数据的存储和计算需求,如何提高挖掘效率,降低挖掘成本也是亟待解决的一个问题。针对上述问题,本文提出并设计一种基于Hadoop的Web日志分析系统。主要研究内容如下:1.论文介绍了课题产生的背景与意义,阐述了当前的分布式及日志挖掘现状。深入研究了 Hadoop技术包括HDFS文件系统和Map Reduce并行计算框架。对Sqoop数据迁移工具以及Hive数据仓库进行了分析。2.研究了 Web日志挖掘理论及聚类算法。针对传统K-means算法进行了分析,提出一种改进的并行K-means算法,并将改进后的算法应用于分布式Web日志系统以完成日志的聚类分析。3.使用Hadoop平台对Web日志数据预处理。包括数据清洗、用户识别、会话识别、路径补充,并给出预处理函数的Map设计和Reduce设计。4.重点介绍了日志分析系统的设计与实现。功能模块包括日志存储、日志预处理、关键指标统计、数据展示、日志挖掘。其中日志预处理模块较为重要,在第三章已单独实现。日志存储采用HDFS和MySQL相结合的方式,原始数据和清洗后的数据存储在HDFS。指标统计采用Hive Sql,统计结果使用Sqoop导入到MySQL存储方便可视化展示。日志挖掘采用改进的并行K-means算法对注册用户聚类分析。5.搭建系统并对实验结果分析。实验表明,基于Hadoop的Web日志分析系统实现了系统的功能,完成了指标统计以及可视化展示;改进的并行K-means算法能够对注册用户聚类分析,提高了聚类的效率,借助分布式系统可以应对大规模日志数据的挖掘与分析。

其他文献

S投资公司财务风险及防范对策研究

随着我国市场经济的不断发展,投资公司在社会经济中发挥的作用越来越大,但是较高的财务风险是投资公司所面临的共同问题。财务风险导致投资行业的发展受限,影响了金融行业的整体水平,因此,分析现阶段投资公司面临的各种财务风险,并探讨风险形成的原因及防范对策,具有十分重要的现实意义。基于此种背景,本文以S投资公司为例,对其财务风险问题进行了深入的研究。本文首先对国内外学者的相关研究进行了梳理与评价,在文献研究

学位

财务风险风险防范S投资公司

新媒体时代手绘插画在民俗节日海报设计中的应用研究

在数字化新媒体技术快速发展的今天,科学、技术开始走进日常生活,并对生活方式产生深远影响,此后国内正式兴起一场数字化、信息化、现代化科学浪潮。本文的主要研究内容如下:

学位

新媒体时代手绘插画形式海报设计动态化中国传统节日二十四节气

混种区作物面积遥感监测方法

根据承包田块空间特征的规范性和作物种植以承包田块为单元的特点,提出了以承包田块制图为基础的混种区作物面积遥感监测方法。该方法将遥感监测分类结果按承包田块进行区域统计,转化成承包田块的属性;通过设定合理的阈值,确定各个承包田块的种植类型,生成种植类型图,从而对种植各类作物的承包田块面积进行统计。

期刊

作物面积混种遥感监测承包田块制图

水稻缓释肥对水稻嘉58生长和产量的影响

在2块土壤肥力不同的水稻田分别进行施用金正大缓释肥和木质素水稻缓释肥对水稻产量及经济性状的影响的试验。结果表明,施用木质素水稻缓释肥显著提高了水稻的平均株高、穗长

期刊

木质素水稻缓释肥产量

基于Hadoop的Web日志分析系统的研究与实现

其他学术论文