基于无监督学习的网络流量异常检测研究

来源 :西南科技大学 | 被引量 : 0次 | 上传用户:liongliong543
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速普及,网络安全事故层出不穷,数据安全、隐私保护等问题越来越被重视。随之网络异常流量检测成为一大研究热点,很多研究人员开始使用机器学习来攻克异常检测领域的难题,取得了很多实验成果。传统的机器学习进行模型训练时通常需要人工选取特征,如果特征选取不当,会造成模型检测的准确率低、模型陷入局部最优导致泛化能力不强等问题。无监督深度学习不需要人工选取特征,可以解决维度灾难问题,并且从未标注的数据中挖掘潜在的规律,对未知的异常流量也有较好的检测能力,因此基于无监督学习的网络流量异常检测成为了研究的核心之一。本课题研究并实现一套网络异常流量检测系统,设计分布式集群架构进行部署,目的是在真实的网络环境中对网络异常流量进行实时高效的检测,本文系统主要包括三个模块:网络数据包实时采集模块、网络异常流量实时检测模块和可视化管理模块。为了确保数据包采集的实时性,本文设计基于DPDK(Data Plane Development Kit,数据平面开发套件)的网络流量高速采集架构,对网络流量进行实时捕获。针对网络流量数据量大、特征维数高、有监督学习对数据标签依赖性强的问题,本文设计一种基于无监督学习的异常流量检测算法,通过改进DAGMM(Deep Autoencoding Gaussian Mixture Model,深度自编码高斯混合模型)算法,设计基于CAE-GMM(Contractive auto-encoders Gaussian Mixture Model,收缩自编码高斯混合模型)的无监督异常检测算法,并进行模型超参数调优。本文的CAE-GMM模型不仅将CAE的特征降维和GMM的密度估计过程结合在一起,进行端到端的联合训练,而且CAE网络在进行特征降维的同时能有效去除噪音的干扰,相比原始的DAGMM,减少了过拟合问题,提高了模型的泛化能力。对于异常判别,首先计算样本能量值,超过自适应阈值即为异常流量。最后,本文设计并搭建了分布式集群架构来保证系统的高性能和高可用。本文分别在KDD99和CICIDS2017两种数据集上对异常流量检测模型进行实验,实验结果表明,本文的异常检测模型准确率达到96%,相比原始DAGMM模型提高了3%左右。本文的异常流量检测系统已在相关医疗机构实际应用场景下部署试运行,运行期间系统稳定,异常告警及时准确,给医疗机构的数据安全提供了一定的保障。
其他文献
公民素养是一个包含道德素养、政治素养和法律素养等多层面、涉及个体的知识、情感、技能和行为等多结构的综合概念。公民社会的建构需要具有较高公民素养的共同体成员的积极
Koulele三维区位于Termit盆地Fana低凸起之上,处于Dinga坳陷及Moul坳陷两个生烃灶之间,其油源条件较为优越,有望继Dinga断阶和Agraga地堑之后成为第三个油气富集带。为了厘清
在工业领域乃至日常生活中,紧固件连接随处可见,螺栓连接是其中最常用的。螺栓结构看似简单,常常被忽视,现实生活中因为螺栓失效而导致的重大事故屡见不鲜,给整个社会带来了
在高速公路上不断高发的汽车事故中,因为突发爆胎而引起的交通事故占很大一部分,而造成爆胎的主要原因是胎内气压不足或过高以及胎内温度过高。由于汽车电子技术的迅速发展,
进入二十一世纪以来,我国的汽车工业得到了迅猛发展。2012年中国汽车产销量双超1900万辆,产销量连续4年居世界第一,汽车工业已经真正成为中国的支柱产业。随着全球化的能源紧
雷达通信融合系统能够实现雷达探测功能和无线通信功能的融合,广泛应用于车载通信、无线传感网络以及电子对抗等领域。应用于车载通信环境下的雷达通信融合系统,与正交频分复
随着网络信息技术的不断发展,互联网已经在各行各业渗透,而且互联网的用户数目也在不断地增加,这使得互联网数据形成了爆发式地增长,对分布式计算而言也是新的机遇。MapReduc
本文研究了两种机械系统中的非线性系统,一种是平方非线系统,另一种是立方非线性系统。针对这两种系统,本文运用理论分析和数值模拟,研究了系统在不同参数范围内的变化规律,
由于能源危机及环境污染问题,可再生能源正扮演越来越重要的角色,作为可再生能源的主要利用方式之一,生物质发电得到世界各国及地区的广泛关注。然而,随着生物质发电行业的进
在金属切削加工过程中,为有效改善刀具与工件之间的摩擦,降低切削温度,减小加工工件表面粗糙度,往往要使用大量的切削液。切削液在制造、使用、废液处理及排放的各个阶段,都