论文部分内容阅读
用户在访问Web站点的过程中,服务器会记录这些访问形成访问日志。对访问日志进行必要的处理可以获取大量的决策数据。就电子商务网站而言,处理网站访问日志有助于为网站的管理者提供决策支持进而指导网站运营,如改善网站结构提升用户体验;进行关键词营销提升流量、促进转化、提升效益;分析用户行为进行个性化的推荐和营销来提高网站的核心竞争力,在激烈的市场竞争中保持优势。
日志的处理与分析通常分为四个阶段:数据采集,数据预处理,分析算法的实施与数据可视化。常见的在线网站分析工具都能在不同程度上提供从日志采集、预处理与分析,直至提供包含各项关键绩效指标的可视化报告解决方案,然而随着电子商务网站不断发展,用户越来越多,业务越来越复杂,访问日志的分析也会变得异常复杂,同时以用户为中心的网站分析也变得更为重要,此时由电子商务网站自身组建分析团队,搭建自主的日志收集和处理平台的就变得非常必要。
Hadoop是Apache基金会开发的一套分布式系统架构,以分布式文件系统HDFS和并行计算模型MapReduce为核心,为用户提供了系统底层细节透明的分布式基础架构。基于Hadoop对电子商务网站的访问日志进行预处理和分析,可以利用集群优势并行处理与分析日志,快速及时的为网站运营团队提供决策数据。
本文提出部署专用的日志服务器,由电子商务网站自身组件团队来完成日志处理与分析各个阶段的工作。采用JavaScrip标记方式采集日志,基于Hadoop搭建自主网站分析平台处理日志数据,并结合用户数据进行网站分析并以Web报表的形式展示分析结果。在日志处理的过程中,对其中包含的海量URL进行识别是非常重要的,本文提出并实现了一种高效可行URL识别的算法。访问路径匹配是分析用户行为重要一环,本文也给出了一种简易的匹配算法和实现。本文在最后提出了一种数据密集型与计算密集型混合的集群协作模型,并将每个阶段的数据处理视为云服务,服务之间通过简单并且低耦合的接口调用完成调用,同时结合Duboo分布式计算服务框架完成了该集群协作模型的实现。