论文部分内容阅读
随着互联网和大数据的快速发展,产生了大量的网络数据。入侵检测是确保网络安全和保护网络资源的重要技术,它能够检测出网络系统中违反安全策略的入侵行为。网络入侵数据具有非负性和高维度性等特点,非负矩阵分解(Non-negative Matrix Factorization,NMF)方法作为一种有效的降维技术已成功的应用于入侵检测。但是随着研究的不断深入,传统的NMF技术已无法满足网络数据的处理要求。例如:(1)NMF的误差函数使用平方项进行计算时,会增加对噪声和异常值的敏感度;(2)传统的NMF无法编码网络数据内部的高阶流形结构;(3)NMF是一种无监督学习方法,它在分类过程中具有训练样本歧义性高的问题。因此,当使用它们去降维时,会影响后续的实验结果。本文通过对前人的研究进行补充完善,提出了三种新的方法,并将它们成功的应用于入侵检测中,具体内容如下:(1)针对网络数据具有内在几何结构,非负性和高维性等问题,提出了基于L2,1约束的超图正则化判别非负矩阵分解方法(L2,1HDNMF)。首先,采用L2,1范数而不是Frobenius范数应用于误差函数,以至于每个样本点的误差值不再是平方的形式,从而提高算法的鲁棒性。然后,引入超图正则化来考虑高维数据的内在高阶几何结构。不同于图正则化只能捕捉成对样本点之间的关系,它能捕捉多个样本点之间的关系。其次将类别标签引入到目标函数中,使L2,1HDNMF成为监督学习模型,并且可以提高算法的判别力。(2)针对网络数据中不可避免的包含非高斯噪声和异常值的问题,提出了基于胡贝尔的超图正则化判别非负矩阵分解方法(Huber-HDNMF)。原始NMF的误差函数使用Frobenius范数,能够建模服从高斯分布的噪声。但是噪声的类型是多种多样的,这就意味着传统的NMF算法无法有效处理非高斯噪声和异常值。因此,采用介于L1范数和L2范数之间的胡贝尔损失函数去计算误差,以降低网络数据中非高斯噪声和异常值对实验结果的影响,从而进一步提高算法的鲁棒性。同时,也在目标函数中施加了超图正则化约束和判别信息约束以提高算法的性能。(3)针对基于NMF的方法采用欧式范数约束对噪声(高斯噪声、非高斯噪声)和异常值敏感的问题,提出了基于相关熵的超图正则化判别非负矩阵分解方法(CHDNMF)。作为一种非线性的局部相似性测度,相关熵表示两个随机变量的相似性概率。不同于欧式范数只考虑数据的二阶矩,相关熵可以捕捉高阶矩,因此,把相关熵应用于CHDNMF的损失项,这将会最大程度的提高算法的鲁棒性。其次,在目标函数中引入超图正则化项和判别信息,使得算法获得满意的降维结果。本文首先采用上述基于NMF改进的方法对网络入侵数据集NSL-KDD进行降维处理,保留重要的特征,然后采用极限学习机(Extreme Learning Machine,ELM)进行分类,实验结果表明本论文中的方法优于其他同类方法,具有更好的分类性能。