论文部分内容阅读
随着互联网的快速发展,中国网民规模已经超过七亿,各类应用层出不穷,主要包括信息查询、在线交流、电子商务、网络游戏、电子邮箱、影音播放等,这些应用业务产生的海量数据和信息,是一种非常重要的战略资源,隐藏着巨大的社会、经济、科研、文化及政治价值。如何合法、高效地对这些数据加以开发和利用,通过对用户身份和用户网络行为识别的研究,帮助用户从十分庞杂的数据中快速找到自己需要的信息,具有重要的应用价值。本文分析了目前主要的用户上网行为识别方法,对于人们更加普遍地在公共场合使用手机、pad等移动设备上网的情况,这些方法已经无法满足商业或公共场合wifi场景下对用户行为分析和web推送的要求。为此,本文首先对用于智能路由器的行为分析系统架构进行了总体设计,详细分析了系统中使用的数据采集和应用特征的提取方式,完成了用户行为表和推送信息表等数据库的设计。其次,对用户行为识别系统进行了详细设计,设计实现了网络协议的解析;通过DPI技术实现用户上网行为的识别并记录,并结合AC多模匹配算法完成了针对应用层数据的深度解析工作;通过爬虫和TF-IDF模型完成网页关键词提取工作;设计了系统主要模块的流程图、代码语言和数据结构。最后,搭建出完整的系统测试环境,结合硬件设备对系统功能进行大量现场测试,成功识别出用户行为并进行web推送。本文研究、设计并实现了用户上网行为识别系统,经过功能测试表明,系统运行正常,而且对智能路由器的资源消耗较小,也不影响其他系统的运行,推送实时性和识别成功率较高,表明系统满足客户对用于智能路由器的用户行为识别系统的设计要求。