论文部分内容阅读
摘要:信息技术的快速发展使互联网广泛应用于人类传统产业。近年来,新型社交网络以及移动互联网技术促使网络用户数量的飞速增长,网络数据呈现爆炸式的增长。“大数据”成为一种关键技术,用来分析和挖掘网络数据的潜在规律和应用价值。网络数据的产生离不开用户的上网行为。准确、快速地从海量数据中挖掘用户的具体网络行为信息、提取用户行为特征对策略管控和智能服务以及推动未来智慧协同网络发展至关重要。为此,本课题在大数据背景下,针对不能全面准确分析网络用户行为的问题,利用网络安全开发包Libnids和分布式平台Hadoop关键技术,重点研究设计并开发出基于Hadoop的用户行为分析系统。本系统实现了海量数据包抓取和分布式存储、TCP重组和应用层HTTP行为分析等功能,不仅有助于服务提供者根据用户行为特征提供更好的推荐服务,而且为网络相关部门对网络舆论进行合理的监控奠定有效的技术支撑。本文采用了基于Hadoop的用户行为分析方法,首先利用高速捕包工具PF_RING抓取网络入口的数据作为用户行为分析的数据源,并将其分布式存储,然后调用网络安全开发包工具Libnids对数据包进行重组,实现TCP/IP的重组,实现应用层HTTP还原,然后调用Hadoop集群,利用分布式Mapreduce编程来分析出用户应用层的网络行为活动,实现从物理层到应用层的全层分析,从用户的搜索词、购物趋向、网站留言和常规网站行为四个维度对用户进行全面的定位。及时了解用户行为和需求,进而策略管控用户行为和优化网络服务,实现网络智能化。本文通过借鉴现有网络中的较为成熟的行为分析技术和海量数据处理平台,研究并设计了基于Hadoop用户行为分析系统。主要研究内容包括:(1)研究在大数据环境下的数据包捕获技术,数据包捕获基于PF_RING技术实现;(2)研究开发数据存储技术,用于存储高速数据包捕获系统的输出文件;(3)研究在Mapreduce框架下对HTTP协议还原技术。