基于机器学习算法的P2P流量分类研究

来源 :湖南工业大学 | 被引量 : 0次 | 上传用户:khalista9
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
P2P应用的快速增长,带来网络拥塞、大量消费网络带宽等诸多问题,而传统的基于端口与有效载荷的网络流量分类方法存在着很多缺陷,研究按照5元组(源IP、源Port、目的IP、目的Prot及IP协议)的定义,将P2P报文分成双向TCP或UDP流,抽取独立于端口、协议和有效载荷的原始数据报文的信息作为P2P流的特征,形成特征向量,用特征向量表示流,流的分类类别为P2P的协议类型。用提出的基于ReliefF-CFS的方法选择流的特征子集,该方法结合ReliefF和基于相关性(CFS)两种特征选择方法,产生适合于分类P2P流的特征子集。首先利用ReliefF特征选择方法把候选特征按与类别相关性的大小排序,通过设定的阈值选择与类别相关性大的特征子集作为CFS选择方法的初始集,然后利用CFS结合正向搜索得到最终的较优特征子集。研究使用C4.5决策树、支持向量机(SVM)、K近邻(KNN)三种机器学习算法构建P2P流量分类器,利用获取的原始数据寻找分类器的最优分类参数,主要采用分类准确率和分类时间标准进行评估;并研究统计原始数据报文的部分信息分类P2P流,实验中分别统计流的双向50、100、150、200个报文信息,结果显示不仅减少了特征统计计算的复杂度和分类的时间,而且有更高的分类准确率。为了让研究的成果能有实际的应用价值,通过构建相应的硬件、软件环境,对P2P流量的在线实时分类作了初步的研究。设计并实现了基于机器学习算法的P2P流量分类原型系统,系统分类分类器构建和分类两个阶段,每个阶段有数据采集、数据解析、流的合成以及分类四个模块。
其他文献
字符自动编针是电脑刺绣系统中一个重要的功能,日常使用非常频繁。TrueType类型的字体是计算机中使用最为广泛的字体类型,因而采用TrueType字体轮廓作为刺绣的轮廓成为字符自动
集群作为一种廉价的高性能计算平台,受到了人们的日益青睐,获得了越来越广泛地应用。集群环境中存在大量的可加以利用的计算资源,如何科学有效地对这些资源加以利用,以充分发挥集
本文在医疗保险相关项目中利用分类挖掘算法,实现了对医疗保险费用分析的决策支持应用,本文在项目应用的基础上主要讨论了以下一些问题: (1)分析了目前某市医疗保险制度运行中
图像处理和识别是实现刺绣CAD编程自动化和智能化的关键技术,也是解决和提高刺绣CAD生产效率的主要手段。因此,目前刺绣CAD系统的图像自动编针成为了世界各国研究的热点。
开发安全的软件需要花费大量的人力物力,如何使开发安全的软件变得更容易是计算机学科的一个基本问题。通过容错、复用等技术手段以及谨慎的系统设计可提高软件的安全性,但是无
随着计算机硬件技术的飞速发展,处理器和相关部件的性能得到了很大的提升。相对便宜的多处理器计算机和支持多处理器的操作系统的出现,开发人员可以利用线程来实现并行处理。而
工程图识别和三维重建是图形识别与 CAD 领域的研究热点,具有重要的理论意义和应用价值。本文总结现有的工程图识别方法及其在处理建筑工程图时的局限性;在此基础上,对建筑工程
软件过程改进是提高软件开发生产率、保证软件产品质量的有效手段之一。常用的软件过程改进方法有:CMM、ISO9000、SPICE等。其中,软件能力成熟度模型(SW-CMM)是被广泛采用的软件
  论文在研究了各类中间件技术的基础上,就图书出版领域常用的几类软件体系结构进行了描述和比较,结合图书出版领域业务系统的特点和需求,构建了一个针对该领域的基于J2EE规范
机器翻译是自然语言处理领域中的一个重要应用。随着国际交流的频繁和互联网的发展,对机器翻译的需求越来越大。目前机器翻译的研究取得了很大进展,但是同人们的期望依然有相当