论文部分内容阅读
随着互联网的快速普及,网络安全事故层出不穷,数据安全、隐私保护等问题越来越被重视。随之网络异常流量检测成为一大研究热点,很多研究人员开始使用机器学习来攻克异常检测领域的难题,取得了很多实验成果。传统的机器学习进行模型训练时通常需要人工选取特征,如果特征选取不当,会造成模型检测的准确率低、模型陷入局部最优导致泛化能力不强等问题。无监督深度学习不需要人工选取特征,可以解决维度灾难问题,并且从未标注的数据中挖掘潜在的规律,对未知的异常流量也有较好的检测能力,因此基于无监督学习的网络流量异常检测成为了研究的核心之一。本课题研究并实现一套网络异常流量检测系统,设计分布式集群架构进行部署,目的是在真实的网络环境中对网络异常流量进行实时高效的检测,本文系统主要包括三个模块:网络数据包实时采集模块、网络异常流量实时检测模块和可视化管理模块。为了确保数据包采集的实时性,本文设计基于DPDK(Data Plane Development Kit,数据平面开发套件)的网络流量高速采集架构,对网络流量进行实时捕获。针对网络流量数据量大、特征维数高、有监督学习对数据标签依赖性强的问题,本文设计一种基于无监督学习的异常流量检测算法,通过改进DAGMM(Deep Autoencoding Gaussian Mixture Model,深度自编码高斯混合模型)算法,设计基于CAE-GMM(Contractive auto-encoders Gaussian Mixture Model,收缩自编码高斯混合模型)的无监督异常检测算法,并进行模型超参数调优。本文的CAE-GMM模型不仅将CAE的特征降维和GMM的密度估计过程结合在一起,进行端到端的联合训练,而且CAE网络在进行特征降维的同时能有效去除噪音的干扰,相比原始的DAGMM,减少了过拟合问题,提高了模型的泛化能力。对于异常判别,首先计算样本能量值,超过自适应阈值即为异常流量。最后,本文设计并搭建了分布式集群架构来保证系统的高性能和高可用。本文分别在KDD99和CICIDS2017两种数据集上对异常流量检测模型进行实验,实验结果表明,本文的异常检测模型准确率达到96%,相比原始DAGMM模型提高了3%左右。本文的异常流量检测系统已在相关医疗机构实际应用场景下部署试运行,运行期间系统稳定,异常告警及时准确,给医疗机构的数据安全提供了一定的保障。