论文部分内容阅读
随着ADSL宽带网络技术的发展,ADSL网络用户数量逐年增加;与此同时,借助于移动网络的升级和智能手机的推广,移动互联网也发展迅猛,用户增长强劲。网络已经成为了我们生活中不可缺少的一部分。网络是庞大的,更是复杂的,不论是对新兴的移动互联网还是不断升级的ADSL宽带网络都还有认识不全面之处。而网络流量监测技术则是一把打开网络流量分析大门的钥匙,将网络流量监控技术获取的海量网络流量信息,与云计算、数据挖掘技术相结合,可以深入分析和挖掘网络的流量特征和用户特征。建立网络模型,为网络的设计和优化提供参考;并深入挖掘用户的上网行为和偏好行为,掌握用户的偏好行为,依据用户的偏好推荐更多优质的网络内容。本文的主要研究内容和创新点如下:(1)将基于Hadoop的云计算技术引入海量网络流量分析领域,创新性的将数据挖掘的关键算法、Hadoop云计算平台和海量网络流量分析相结合,构建了基于Hadoop云计算平台的海量网络流量分析系统。系统实现了对海量网络流量数据的分布式存储和高效准确的数据挖掘。研究的关键算法有:分类算法对海量流量进行分类,聚类算法研究用户的行为偏好,推荐算法根据用户偏好推荐。基于Hadoop云计算的海量网络流量分析系统包括基于Hadoop云计算的移动互联网网站分类系统和基于Hadoop云计算的移动互联网网站访问推荐系统两个系统。网站分类系统,使用基于MapReduce的数据挖掘的分类算法集,完成了基于海量移动互联网流量的网站分类,通过分类得到了移动互联网用户的网站偏好;推荐系统,使用基于MapReduce的推荐算法集,根据用户的网站偏好进行网站推荐;ISAKMMR聚类算法构建了可以处理海量互联网用户业务使用流量数据的分布式聚类算法,获得用户行为偏好。分类,聚类,推荐三大数据挖掘算法相辅相成,分类海量移动互联网流量,聚类移动互联网流量和用户偏好群体特征,并根据偏好进行用户推荐。简要介绍了实验室的云计算平台,并使用国内互联网现网采集的真实流量数据进行系统性能测试,测试结果证明了系统的高效性。(2)基于Hadoop云计算的移动互联网网站分类系统的系统。该系统支持对海量移动互联网数据进行快速准确分类。通过实验对该系统中的分类模型和关键分类算法进行了比较。基于移动互联网现网流量数据的URL分类结果,对比了各类网站时间维度上的流量特征和应用商店网站特征,反映用户的网站偏好。本文使用部署在国内移动互联网骨干网节点的10G速率的流量监测设备,采集了我国两省的时间跨度为三年一共八天的移动互联网网站访问流量数据。基于多种分类需求,对系统的三种分类模型:ALL Model分类模型,1&Other Model模型和1&1Model分类模型,进行了比较;基于移动互联网现网流量数据的URL分类结果对该系统中的关键算法(基于MapReduce的朴素贝叶斯算法和基于MapReduce的LDA算法)进行了分类准确率分析,挖掘了两者的分类应用场景,验证系统高效性和高分类准确率;挖掘各类网站时间维度的流量特征和应用商店下载特征。(3)研究了国内某省ADSL宽带网络流量,分析了ADSL用户的上下线和业务使用行为。使用非时齐泊松过程对ADSL用户的上下线行为建模,并证明模型的有效性;提出了MapReduce架构的ISAKMMR聚类算法,处理海量ADSL业务数据,并得到用户群的业务偏好模型。本文通过实验和理论推导发现,ADSL宽带网络用户上下线行为符合非时齐泊松过程。根据该过程的定义和特点,推导出用户上线登陆概率和离线退出概率,并建立了ADSL用户上下线状态转移模型,该模型可以对用户上下线行为进行预测,实验结果显示该模型预测的有效性。通过引入模拟退火、并行化聚类特征和稀疏向量,设计了基于MapReduce的ISAKMMR算法,该算法可以有效的对海量高维的稀疏流量数据进行快速、准确的聚类,对现网中的ADSL用户业务行为数据进行聚类,得出了用户群组的业务偏好行为模型,也证明了该算法的高效性和有效性。(4)本文改进了关联规则和协同过滤算法,以适合海量网络流量的分布式计算。开发了一套基于Hadoop的移动互联网网站访问推荐系统。使用该系统可对采集自现网的用户网站偏好数据进行分析,根据用户和网站的相似性进行网站推荐,并通过实验验证了推荐系统的高效性和应用场景的多样性。本文研究了基于移动互联网网站访问的推荐算法,设计开发了基于Hadoop的推荐系统。对系统架构进行了完整详细的描述;对推荐系统推荐算法模块中的3个关键推荐算法(基于MapReduce的Apriori算法MRApriori,基于MapReduce的MRUCF算法和基于MapReduce的MRICF算法)的并行方法进行了深入的研究;通过对基于现网采集的移动互联网用户偏好数据进行的一系列实验,得出了3个关键算法所适用的不同推荐场景,也验证了本推荐系统的高效性和算法有效性。