基于Hadoop用户行为分析系统设计与实现

被引量 : 67次 | 上传用户:suzhenzsyf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
摘要:信息技术的快速发展使互联网广泛应用于人类传统产业。近年来,新型社交网络以及移动互联网技术促使网络用户数量的飞速增长,网络数据呈现爆炸式的增长。“大数据”成为一种关键技术,用来分析和挖掘网络数据的潜在规律和应用价值。网络数据的产生离不开用户的上网行为。准确、快速地从海量数据中挖掘用户的具体网络行为信息、提取用户行为特征对策略管控和智能服务以及推动未来智慧协同网络发展至关重要。为此,本课题在大数据背景下,针对不能全面准确分析网络用户行为的问题,利用网络安全开发包Libnids和分布式平台Hadoop关键技术,重点研究设计并开发出基于Hadoop的用户行为分析系统。本系统实现了海量数据包抓取和分布式存储、TCP重组和应用层HTTP行为分析等功能,不仅有助于服务提供者根据用户行为特征提供更好的推荐服务,而且为网络相关部门对网络舆论进行合理的监控奠定有效的技术支撑。本文采用了基于Hadoop的用户行为分析方法,首先利用高速捕包工具PF_RING抓取网络入口的数据作为用户行为分析的数据源,并将其分布式存储,然后调用网络安全开发包工具Libnids对数据包进行重组,实现TCP/IP的重组,实现应用层HTTP还原,然后调用Hadoop集群,利用分布式Mapreduce编程来分析出用户应用层的网络行为活动,实现从物理层到应用层的全层分析,从用户的搜索词、购物趋向、网站留言和常规网站行为四个维度对用户进行全面的定位。及时了解用户行为和需求,进而策略管控用户行为和优化网络服务,实现网络智能化。本文通过借鉴现有网络中的较为成熟的行为分析技术和海量数据处理平台,研究并设计了基于Hadoop用户行为分析系统。主要研究内容包括:(1)研究在大数据环境下的数据包捕获技术,数据包捕获基于PF_RING技术实现;(2)研究开发数据存储技术,用于存储高速数据包捕获系统的输出文件;(3)研究在Mapreduce框架下对HTTP协议还原技术。
其他文献
伴随电力网络规模不断扩大,电压稳定潜在的危险性增加。最小奇异值作为静态电压稳定判定指标之一,因为能够很好地反映静态电压稳定裕度而得到了广泛的应用,因此,本文就快速求取最
近年来,随着上市公司数量突飞猛进的增加,上市公司管理者出于特定的目的,不断对企业盈余进行管理,甚至出现利润操纵现象,使公司盈余质量在不断降低,欺骗投资者的现象与日俱增。鉴于
基于互联网的云计算,以服务的方式为用户提供动态可伸缩的虚拟化资源,将其所提供的所有服务构建在动态的架构上,剥离了软件与应用环境之间的联系,使用户通过网络即可获得其所
摘要:移动通信技术与互联网技术的融合,使人类进入了崭新的移动互联网时代。在这场主要由技术革命引发的社会化大变革中,传统阅读、数字阅读以及移动数字阅读成为当下社会中三
我国经济建设,离不开铁路,随着经济发展速度的加快,铁路需求量不断增加,对铁路的质量要求也越来越高。近年来,随着高速铁路建设的增加,其技术应用越发广泛。铁路工程建设基础
摘要:综观货币发展的历史,货币形态先后经历了实物货币、金属货币、纸币等不同的发展阶段。20世纪90年代以来,随着电子信息技术和网络通讯技术的不断发展,货币形态朝着电子化
低碳经济之下,投资者越来越关注企业的碳排放情况,碳会计信息或许正成为影响投资决策及资本成本的因素之一。本文在回顾国内外有关文献的基础之上,选取我国“十二五”节能减
随着互联网的不断发展和用户需求的不断提高,有关网络用户的行为分析和数据挖掘研究迅速发展起来。作为Web2.0技术的典型代表,网络论坛承担着传播信息和舆论导向的作用。因此
为了提高变形监测数据预测的精度与可靠性,提高神经网络预测方法的稳定性,尝试将小波分析与BP神经网络相结合的小波神经网络应用于高铁路基处的沉降监测数据处理中。综合小波
热风炉是炼铁生产过程中的重要设备之一,热风炉的建设是一个庞大的工程,基建费用很高,比高炉本体建造成本费用还高,约为其1.1~1.5倍,另外热风炉的大修费用也很高昂。因此,对热风炉进