论文部分内容阅读
随着计算机技术的快速发展,计算机网络已经与人们的生活形影不离,然而网络攻击手段繁多,令人防不胜防,比如网络内部攻击、绕过防火墙的攻击,等等。作为网络安全第二道防护墙的入侵检测技术是一种主动防御安全技术,近年来成为研究热点。 面向入侵检测系统的现有分类方法存在检测效率低、检测准确率较差,对入侵检测数据下采样处理容易造成重要信息丢失等缺点,从而影响分类性能。本论文以经典的KDDCUP99入侵检测数据集为应用背景,为了同时提高网络入侵检测准确率和检测效率,对几种典型的分类方法进行了深入的比较研究,提出了一种基于热核信息熵的下采样方法,并对Fisher线性判别式和伪拟线性判别式之间的关系进行了理论分析和验证。 本论文的主要工作如下: 1.分析并比较支持向量机、神经网络、Logistic回归、Fisher线性分类器、极限学习机、决策树模型及其在入侵检测系统中的应用方法。 2.根据KDDCUP99大样本、高度不平衡数据集的特点,研究并提出一种有效的多数类样本下采样方法,以提取有价值的多数类样本,降低类间不平衡度。 3.分析Fisher线性判别式和伪拟线性判别式之间的差异。我们认为,经典的教科书《Pattern Classification》关于二者等价的证明没有多少实用价值;当目标输出与类样本数不呈反比例时,伪拟线性判别式与Fisher线性判别式并不相同或不完全相同。几个二维数据集的实验结果证明了这一结论。 本论文通过对KDDCUP99数据集的实验,详细比较了支持向量机、神经网络、Logistic回归、Fisher线性分类器、极端学习机、决策树模型和学习算法的性能。实验结果表明,本论文提出的方法不仅能显著提高对高度不平衡大数据集的分类精度,而且能显著提高学习与决策速度。