基于Hadoop的电子商务网站访问日志处理与分析

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:gogoxincheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
用户在访问Web站点的过程中,服务器会记录这些访问形成访问日志。对访问日志进行必要的处理可以获取大量的决策数据。就电子商务网站而言,处理网站访问日志有助于为网站的管理者提供决策支持进而指导网站运营,如改善网站结构提升用户体验;进行关键词营销提升流量、促进转化、提升效益;分析用户行为进行个性化的推荐和营销来提高网站的核心竞争力,在激烈的市场竞争中保持优势。   日志的处理与分析通常分为四个阶段:数据采集,数据预处理,分析算法的实施与数据可视化。常见的在线网站分析工具都能在不同程度上提供从日志采集、预处理与分析,直至提供包含各项关键绩效指标的可视化报告解决方案,然而随着电子商务网站不断发展,用户越来越多,业务越来越复杂,访问日志的分析也会变得异常复杂,同时以用户为中心的网站分析也变得更为重要,此时由电子商务网站自身组建分析团队,搭建自主的日志收集和处理平台的就变得非常必要。   Hadoop是Apache基金会开发的一套分布式系统架构,以分布式文件系统HDFS和并行计算模型MapReduce为核心,为用户提供了系统底层细节透明的分布式基础架构。基于Hadoop对电子商务网站的访问日志进行预处理和分析,可以利用集群优势并行处理与分析日志,快速及时的为网站运营团队提供决策数据。   本文提出部署专用的日志服务器,由电子商务网站自身组件团队来完成日志处理与分析各个阶段的工作。采用JavaScrip标记方式采集日志,基于Hadoop搭建自主网站分析平台处理日志数据,并结合用户数据进行网站分析并以Web报表的形式展示分析结果。在日志处理的过程中,对其中包含的海量URL进行识别是非常重要的,本文提出并实现了一种高效可行URL识别的算法。访问路径匹配是分析用户行为重要一环,本文也给出了一种简易的匹配算法和实现。本文在最后提出了一种数据密集型与计算密集型混合的集群协作模型,并将每个阶段的数据处理视为云服务,服务之间通过简单并且低耦合的接口调用完成调用,同时结合Duboo分布式计算服务框架完成了该集群协作模型的实现。
其他文献
自20世纪70年代以来,随着国内外食品药品安全事件频发,食品药品质量安全问题已经成为世界关注的热点。虽然可追溯系统在农产品方面的研究和应用已经初见成效,但对于中草药的
近年来,随着计算机和多媒体信息技术的迅速发展,图像和三维模型等数据也呈现出几何倍数增长。但同时,这些海量的数据也给人们对关键信息的获取带来了巨大的工作量和挑战。因此,人
近年来,随着科学技术的大力发展,现代化设备在电力系统中的应用也越来越广泛,因而其故障诊断在显示应用中的意义也越发重要。一台设备如果不能及时发现其潜在故障,而是在发生故障以后断电检修,不仅会在经济上给人们的生产生活造成损失,甚至造成生产事故。对此,在电力系统中,以排查设备故障隐患为目的的设备状态检修可以在对尚未出现故障的设备进行故障诊断,在出现故障征兆时发出预警,在电力企业的生产工作中有着重大的意义
近年来,由于各类消费类电子产品的兴起,嵌入式程序开发工作的复杂程度也日益加大。开发环境对嵌入式软程序开发而言是非常重要的,一个合适的程序开发环境可以有效地提高嵌入式程
无线传感器网络是由大量成本低廉的传感器节点以无线通信方式自组织形成的网络,能够实时地感知、采集、处理网络区域内监测对象的信息,具有快速展开、高监测精度、容错性强等
随着云计算的发展,越来越多的应用以云端服务的形式开放,随之引发了Web服务数量的爆炸式增长,互联网上涌现出越来越多的功能相同但服务质量(QoS)不同的Web服务。面对如此庞大
对计算机而言,感知和识别自然界中的物体和场景,是异常困难的任务。如何准确地运用计算机语言来表达自然场景,使其不但能够区分不同的物体,还能够克服各种变换带来的问题,选
随着科技的迅速发展和计算机技术的不断进步,人们的生活越来越离不开计算机,尤其是近三十年网络的迅猛发展使得信息交流不再受距离、时间、空间所限,而在信息交流的过程中难
随着互联网的高速发展,多元化信息呈几何级数增长,用户对于信息检索服务也提出了越来越高的要求,尤其是在检索结果的专业性和准确性上,而通用搜索引擎的检索能力无法满足这种需求
无线传感器网络中,传感器节点由于受体积和成本的限制,通常采用能量有限的电池提供能量。但是由于整个应用网络中部署有大量的传感器节点,加上工作环境一般比较恶劣,这样使得