论文部分内容阅读
随着计算机网络的迅猛发展,网络安全问题成为人们关注的焦点。如何应对大规模的高速数据流检测,如何实现在线学习,如何减少或消除噪声数据的影响,是入侵检测系统面临的主要挑战。入侵检测本质上可以看成一个分类问题,可以把所有的网络行为分成两类:正常行为和异常行为,这样入侵检测问题就可以转化成模式识别问题。解决这个分类问题的关键是模式的有效抽取和分类模型的建立。稀疏表示理论在近年来已被广泛关注,在图像处理等领域也得到了广泛应用。相对于传统的采用正交基来变换信号,基于超完备字典的信号稀疏分解是一种新的信号表示理论,通过这种超完备字典把数据变换到另一空间,即进行稀疏编码,会带来更好的分类效果,原因是稀疏表示系数从某种意义上带有一定的判别信息。富有表示力、针对不平衡数据集的鲁棒性、可以应对大规模数据的训练和较好的去噪性能、检测速度快和自适应学习,稀疏表示所具有的这些特点可有效应对入侵检测的高维数据和缺乏先验知识的情况,保证较高的检测率和较低的误报率,减少丢包率,提升入侵检测系统的性能。本文的主要工作包括:(1)设计了一个协同入侵检测模型,该模型由数据采集器、数据预处理、检测代理、响应单元与数据存储器组成,并详细介绍了模型中各个模块的功能。(2)设计了一组检测代理,分别用于检测TCP/UDP/ICMP协议的攻击,各代理独立地检测网络攻击行为,又协同完成整个检测任务。本文详细描述了单个检测代理的结构和构建过程。(3)提出了三个基于稀疏表示的入侵检测算法,用于分别构建检测代理。①针对正常类和攻击类分别训练字典,利用子空间结构理论,通过重构误差来判断测试样本的类别。②采用判别式K-SVD算法,由于稀疏系数本身具有很强的表示力和判别力,同时考虑到类别信息,在训练过程中,同时优化完备字典和线性判别函数。③将稀疏表示理论和支持向量机结合,由于稀疏系数本身所带有的类别信息,使得支持向量机在入侵检测上表现出更好的性能。(4)给出了训练数据精简和增量学习的方法。模型训练时,由于数据规模大,可能存在大量噪声。为了保证检测工作不受噪声数据干扰,保持检测工作的稳定性,对训练数据进行精简和增量学习就显得必须,本文分析了这些问题并给出了相应的解决方案。(5)用KDD Cup 1999数据集进行了实验,验证了本文算法的有效性,结果表明稀疏表示应用到入侵检测有良好的效果。