论文部分内容阅读
互联网时代,数据量飞速增长:城市数据、医疗数据、网站数据等数据不断的产生。这些数据隐含着人们生活活动的规律和社会发展的规律,有很大的分析价值。但在这些数据中,却有大量数据因为难以保存而直接丢弃了。这些被丢弃的数据中隐含着有价值的信息,却没有得到利用。为了挖掘这些信息的隐含价值,可以使用流计算方法分析这些数据。流计算是一种数据分析方法,这种方法是实时的,它在得到数据的同时同步进行数据分析,避免了原始数据的累积。同时实时产生结果,保证了分析结果的有效性和可用性。使用流数据分析方法,可以挖掘那些难以保存的大量数据的隐含价值。用户访问网站时会产生大量http数据包。而因为http报文数据量大,冗余信息多,使用传统的存储再分析方法来分析http数据代价很大,性价比很低,所以人们访问网站时产生的http报文通常用过即丢。本文使用流计算分析方法来处理http数据,可以在有限存储容量条件下挖掘http数据的隐含价值。本文的研究方向是从http报文中实时分析网站的用户行为数据,包含用户pv/uv、访问深度、停留时间、地理位置、搜索关键词等。实时显示分析结果。分析产生的用户行为数据可以指导网站的决策、引导网站的建设、验证网站的营销成果、支持上层多维用户行为分析。本文的主要贡献有三个方面:一是通过nodejs技术和redis技术编码完成了一套流数据分析程序;二是设计并实现了一套从http报文中分析用户行为数据的拓扑流程,其中多个分析节点(pv/uv、来源网站、关键词、访问深度、停留时间、地理位置)按流水线分布;三是设计了数个用户行为分析算法,算法功能为从输入的流数据中分析计算用户的pv/uv、访问深度、停留时间等。