基于云计算的海量网络流量数据分析处理及关键算法研究

被引量 : 25次 | 上传用户:liyang12886
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着ADSL宽带网络技术的发展,ADSL网络用户数量逐年增加;与此同时,借助于移动网络的升级和智能手机的推广,移动互联网也发展迅猛,用户增长强劲。网络已经成为了我们生活中不可缺少的一部分。网络是庞大的,更是复杂的,不论是对新兴的移动互联网还是不断升级的ADSL宽带网络都还有认识不全面之处。而网络流量监测技术则是一把打开网络流量分析大门的钥匙,将网络流量监控技术获取的海量网络流量信息,与云计算、数据挖掘技术相结合,可以深入分析和挖掘网络的流量特征和用户特征。建立网络模型,为网络的设计和优化提供参考;并深入挖掘用户的上网行为和偏好行为,掌握用户的偏好行为,依据用户的偏好推荐更多优质的网络内容。本文的主要研究内容和创新点如下:(1)将基于Hadoop的云计算技术引入海量网络流量分析领域,创新性的将数据挖掘的关键算法、Hadoop云计算平台和海量网络流量分析相结合,构建了基于Hadoop云计算平台的海量网络流量分析系统。系统实现了对海量网络流量数据的分布式存储和高效准确的数据挖掘。研究的关键算法有:分类算法对海量流量进行分类,聚类算法研究用户的行为偏好,推荐算法根据用户偏好推荐。基于Hadoop云计算的海量网络流量分析系统包括基于Hadoop云计算的移动互联网网站分类系统和基于Hadoop云计算的移动互联网网站访问推荐系统两个系统。网站分类系统,使用基于MapReduce的数据挖掘的分类算法集,完成了基于海量移动互联网流量的网站分类,通过分类得到了移动互联网用户的网站偏好;推荐系统,使用基于MapReduce的推荐算法集,根据用户的网站偏好进行网站推荐;ISAKMMR聚类算法构建了可以处理海量互联网用户业务使用流量数据的分布式聚类算法,获得用户行为偏好。分类,聚类,推荐三大数据挖掘算法相辅相成,分类海量移动互联网流量,聚类移动互联网流量和用户偏好群体特征,并根据偏好进行用户推荐。简要介绍了实验室的云计算平台,并使用国内互联网现网采集的真实流量数据进行系统性能测试,测试结果证明了系统的高效性。(2)基于Hadoop云计算的移动互联网网站分类系统的系统。该系统支持对海量移动互联网数据进行快速准确分类。通过实验对该系统中的分类模型和关键分类算法进行了比较。基于移动互联网现网流量数据的URL分类结果,对比了各类网站时间维度上的流量特征和应用商店网站特征,反映用户的网站偏好。本文使用部署在国内移动互联网骨干网节点的10G速率的流量监测设备,采集了我国两省的时间跨度为三年一共八天的移动互联网网站访问流量数据。基于多种分类需求,对系统的三种分类模型:ALL Model分类模型,1&Other Model模型和1&1Model分类模型,进行了比较;基于移动互联网现网流量数据的URL分类结果对该系统中的关键算法(基于MapReduce的朴素贝叶斯算法和基于MapReduce的LDA算法)进行了分类准确率分析,挖掘了两者的分类应用场景,验证系统高效性和高分类准确率;挖掘各类网站时间维度的流量特征和应用商店下载特征。(3)研究了国内某省ADSL宽带网络流量,分析了ADSL用户的上下线和业务使用行为。使用非时齐泊松过程对ADSL用户的上下线行为建模,并证明模型的有效性;提出了MapReduce架构的ISAKMMR聚类算法,处理海量ADSL业务数据,并得到用户群的业务偏好模型。本文通过实验和理论推导发现,ADSL宽带网络用户上下线行为符合非时齐泊松过程。根据该过程的定义和特点,推导出用户上线登陆概率和离线退出概率,并建立了ADSL用户上下线状态转移模型,该模型可以对用户上下线行为进行预测,实验结果显示该模型预测的有效性。通过引入模拟退火、并行化聚类特征和稀疏向量,设计了基于MapReduce的ISAKMMR算法,该算法可以有效的对海量高维的稀疏流量数据进行快速、准确的聚类,对现网中的ADSL用户业务行为数据进行聚类,得出了用户群组的业务偏好行为模型,也证明了该算法的高效性和有效性。(4)本文改进了关联规则和协同过滤算法,以适合海量网络流量的分布式计算。开发了一套基于Hadoop的移动互联网网站访问推荐系统。使用该系统可对采集自现网的用户网站偏好数据进行分析,根据用户和网站的相似性进行网站推荐,并通过实验验证了推荐系统的高效性和应用场景的多样性。本文研究了基于移动互联网网站访问的推荐算法,设计开发了基于Hadoop的推荐系统。对系统架构进行了完整详细的描述;对推荐系统推荐算法模块中的3个关键推荐算法(基于MapReduce的Apriori算法MRApriori,基于MapReduce的MRUCF算法和基于MapReduce的MRICF算法)的并行方法进行了深入的研究;通过对基于现网采集的移动互联网用户偏好数据进行的一系列实验,得出了3个关键算法所适用的不同推荐场景,也验证了本推荐系统的高效性和算法有效性。
其他文献
教育财政制度是国家财政体制的重要组成部分,也是教育事业健康发展的重要保障。通过对新中国教育财政制度改革的历史演变展开回顾,以期望对中国未来教育财政制度的变革提供经验
多环芳烃(PAHs)具有低水溶性和憎水性,能强烈地分配到非水相中,吸附于颗粒物上,土壤便成为其主要的环境归宿之一.残留在土壤中的多环芳烃,不仅影响土壤的正常功能,降低土壤的环境质量
目的:探讨不同运动干预对中年女性最大有氧能力的影响,为寻找最为适合中年女性的健身方式提供实践依据。方法:随机抽取82名50-59岁健康女性,41名为动感单车组,41名为慢跑组,两
在汽车行业发展迅猛的中国市场,汽车售后服务已经成为汽车经销商维系客户和利润来源的关键环节。汽车市场竞争也越来越激励,售后服务的水平直接影响了汽车品牌的美誉度和汽车
本文讨论了情态副词“反正”的嬗变轨迹,并分析了推动其不断演化的动因,同时还结合语法化理论就前贤所观察到而未能解决的相关现象做出了统一解释。情态副词“反正”并不是汉
通过天然岩心的注水伤害实验,总结出了低渗透率油层条件下,注入水中悬浮物粒径、悬浮物含量、含油量、硫酸还原菌含量与岩心渗透率下降幅度的关系。分析实验结果得出:①对于空气
民族精神和时代精神的关系可分为由远及近的三个逻辑层次:彼此独立,保持各自的差异性;相互作用,在双向运动中施加影响;互相交融,成为对方的一部分。首先,二者是同一范畴下不
准确全面地把握大学生主题教育的内涵和特征,并坚持学校教育引导与学生自我教育相结合、理论教育与社会实践相结合、继承优良传统与改进创新相结合、"规定动作"与"自选动作"
2003年高中新课程改革正式启动,此次课程改革在课程理念、课程结构、课程内容、课程实施、课程评价等方面发生了彻底变革。2009年9月黄冈市蕲春县使用人教A版数学教材,正式加
实时视频处理平台作为物联网技术的关键应用能够为用户提供多样化的基于实时视频内容的服务。视频平台具有数据量大,数据类型复杂,传输负载大等特点,传统单节点,多任务的处理