论文部分内容阅读
近年来P2P技术高速发展,P2P应用也由传统的文件共享型应用逐渐向多个领域扩充。由于互联网上多媒体信息处理技术的普及,流媒体技术与P2P架构相结合产生了P2P流媒体这种新型互联网应用。P2P流媒体为互联网用户提供了高质量高可用性的多媒体服务,但这种娱乐性的非关键流量也占用了大量网络资源和带宽,严重影响了网络上关键业务(如电子政务)的运营。同时也由于P2P流媒体应用要求较高的服务质量(QoS),因此有必要开展对P2P流媒体业务的有效监管,来限制或保障P2P流媒体流量。对P2P流媒体流量的识别是监控和管理P2P流媒体业务的基础。因此,如何有效识别互联网上P2P流媒体流量成为目前国内外尚待深入探索的研究内容之一。论文针对目前国内外对P2P流媒体识别研究还处于起步阶段的现状和对流量识别的方法单一性无法满足识别灵活性这些不足,提出了一套将P2P流媒体应用层签名特征和流统计特征相结合的基于复合特征P2P流媒体识别方法。这样重点解决了由于基于应用层签名识别方法无法识别未知P2P流媒体应用和因软件版本更新速度较快而导致应用层签名失效的问题,也解决了基于流统计特征识别方法多用在离线识别分析而无法保证在线实时识别的问题。论文主要开展了以下工作:①研究各种流量识别技术,分析这些方法之间的优缺点。同时,研究并分析了P2P流媒体通信和工作交互原理,论述并提出了P2P流媒体三大流量特征,进而总结出P2P流媒体在应用层签名和流属性统计方面的特征。②使用数据挖掘技术和机器学习分类算法,以决策树C4.5算法为例,选取针对P2P流媒体识别的流属性统计特征从网络流的层面上来研究P2P流媒体的识别。为提高分类准确率,设计并实现了改进的双层分类模型。③针对已识别出来的P2P流媒体网络流,提出并实现了自动提取数据包应用层签名方法。该方法分析并提取每条P2P流媒体网络流里的数据包载荷签名值,改善了传统的用人工分析方法来找寻应用层签名的陈旧模式。④将基于应用层签名和基于流属性统计特征的两种识别方法结合起来,设计并实现了基于复合特征的P2P流媒体识别系统。基于流属性统计特征识别方法用在该系统中的离线分析模块;而基于应用层签名识别方法用在在线识别模块,在这个模块里设计并实现了基于缓存概念的线性包分类算法。