具有准确应用类型标签的网络流量数据集的研究

来源 :济南大学 | 被引量 : 2次 | 上传用户:lvhuan009a
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的不断进步、网络应用的不断增多,网络流量迅速爆发,对于服务质量、带宽计费以及入侵检测等网络管理而言,准确的流量分类变得更加重要。然而,在当前的网络环境下,由于动态端口号和加密技术的应用,使得传统分类方法的有效性越来越低。因此,基于网络流量行为模式的机器学习,得到许多团体的关注和研究。基于机器学习的流量识别技术使用的大多数流量样本,都是在网络主干节点上采集的。该流量样本经过多层伪装、加密等操作,很难再使用动态端口号、有效载荷、聚类算法等方案,来获得产生其的准确应用类型信息。因此,如何获得具有准确应用类型标签的网络流量数据集,成为目前流量分类研究所面临的一个难题。为了解决获得具有准确应用类型标签的网络流量数据集的问题,本文提出了具有准确应用类型标识的网络流量数据集的制作方案,并将该方案在真实的网络环境中进行部署实施,从而获得真实的具有应用类型标识的网络流量数据。首先,开发基于套接字钩子的钩挂程序(Socket Hook)和基于passthru框架的网络中间层扩展驱动程序,并将其安装在使用Windows操作系统的主机上。则主机上运行调用socket请求的网络应用时,在用户层,Socket Hook会将其截获并获得其五元组(源IP地址、源端口号、目的IP地址、目的端口号和协议)信息及应用进程名称,然后根据已创建的进程名称和进程标识的对应关系,建立网络应用的五元组和进程标识之间的对应关系。在内核层,基于passthru框架的驱动会截获socket调用的网络应用,并获得其五元组和进程标识的对应关系,然后在数据包头部的服务类型(TOS)位置上标记进程标识,在重新计算校验和后传输已被标识的网络应用。其次,在网络的中心出口处,通过路由镜像,使用基于现场可编程门列(FPGA)的板卡采集器对路由镜像的网络流量进行采集、过滤,并根据数据包头部TOS位值是否为零,将网络流量数据发送到数据服务器的不同位置上进行存储及处理。最后,对采集的网络流量数据依据五元组和TOS位的标志信息汇聚成流,并对汇聚后的网络流量进行过滤处理以及隐私处理。然后,数据处理器使用该处理后的网络流量制作成具有准确应用类型标签的网络流量数据集。
其他文献
人脸作为人体与生俱来的最自然最普通的生理结构之一,是生物特征识别研究的重要对象。经过近40年的研究和发展,人脸识别技术取得了长足的进步,许多优秀的人脸识别算法在理想情况
无线传感器网络目前面临着巨大的挑战,由于通常需要把无线传感器网络部署在环境恶劣,甚至人类无法进入的环境,因此网络无法得到有效的维护和更新,最糟糕的状况就是无线传感网络完
多元时间序列广泛存在于现实世界中,如航天、金融、医疗、气象等领域。由于用多个变量描述事物的状态,多元时间序列更贴近现实而非理想状态,因而对于多元时间序列数进行据挖
随着互联网的发展,以电子商务为代表的新型的商业模式正在以凶猛的势头和难以置信的速度,加快传统商业模式的升级与改变。人们足不出户就可以进行商务活动和网上购物等,电子商务
数据挖掘是当今人工智能和数据库研究方面最富活力的领域。数据挖掘可以从海量的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识,能为管理者的决策提
随着网络中文档数量的与日俱增,人们的检索需求也在不断增加,数学表达式是大量网络文档的重要组成部分,人们经常会希望通过数学表达式在搜索引擎中检索所需的相关文档,但目前
目前随着互联网的蓬勃发展,尤其是电子商务的发展为越来越多的用户提供了Web服务。网民的选择增多,对网络服务的需求趋于理性和多样化,这为Web挖掘的发展提供了现实基础。对
战术Ad Hoc网络是Ad Hoc网络在战场指挥通信领域的一个典型应用,它具有节点分布区域广、作战需求强等特点,其移动模型技术是决定作战能力的关键技术之一。战术Ad Hoc网络中节点
特征选择是指从初始特征全集中,依据既定规则筛选出特征子集的过程。通过剔除冗余特征,以达到降低算法复杂度和提高算法性能的目的。特征选择是解决维数灾难问题的有效手段,
教学是学生与老师之间的互动,是教与学的有机结合,也是双方之间的绝对统一。这就需要教学当事人——老师和学生的积极参与、互动和交流,这不仅仅是将老师的教学活动与学生的知识