论文部分内容阅读
随着互联网络的迅速发展和计算机网络结构的日益复杂,整个网络所面临的安全威胁日益严重,入侵检测系统已成为网络安全的重要组成部分。众多网络中所布置的大量的入侵检测系统,是对入侵进行预防、检测和响应的基础。但现有的入侵检测系统目前存在着一些缺陷,如标记(Signature)书写困难,难于发现新的攻击,单一的数据来源导致存在大量的漏报和误报使得检测结果的准确性不高,报警信息难于理解,同时,大量的来不及处理的报警信息,也让安全管理人员无法及时、准确的处理报警信息。
本文主要通过利用智能技术(主要是基于实例的学习方法)对网络入侵的检测展开相关的研究。大致包括以下几个方面:全监督和半监督学习框架下的的入侵检测模型;提高安全管理员对以上两种入侵检测模型所产生的报警信息理解的规则生成技术和基于多源报警信息源下的可信攻击场景重构等几个方面。本文主要研究内容描述如下:
1)在全监督学习框架下,针对当前众多智能算法在对各种类型的攻击的进行检测时所存在的检测效果的非均衡性,提出了基于改进的随机森林算法的异常入侵检测模型。通过实验表明,虽然当利用随机森林的算法在针对某些类型的攻击进行检测时,与已知的典型的智能入侵检测算法,如利用支撑向量机,神经网络和集成的支撑向量机,相比其检测性能略低,但其整体性能优于以上算法,同时,与其它算法相比,其不存在明显的检测漏洞,如支撑向量机,神经网络和集成的支撑向量机在检测U2R类型的攻击的时候,其检测率不高于76%,而Wenke Lee的方法在检测R2L时候其检测性能不高于60%。同时,为了进一步提高算法的性能,本文采用遗传算法对构成随机森林算法的成员随机树的数目进行约简,使得整个算法的响应时间提高了20%-35%.
2)针对现有的全监督学习算法在应用到入侵检测领域的时候,虽然能取得较好的检测结果,但是,其存在训练过程中所需要的大量的有标记的训练数据集难于获取的问题,而非监督学习算法在应用到入侵检测领域的时候,虽然可以摆脱掉大量的有标记的训练数据集的约束,但其有检测效果很低和产生大量的漏报和误报的问题。本文在半监督学习的框架的基础上,提出了一个基于少量标记的能检测已知和未知攻击的混合入侵检测模型并实现了该模型。通过实验证明,仅依赖少量的有标记的数据,与应用到入侵检测领域的非监督学习算法相比,该检测模型对攻击的检测能力提高了大约17%,其对已知攻击的检测能力基本上接近已经被应用到入侵检测领域的全监督算法对攻击的检测能力,同时,其对未知攻击的检测能力明显优于在入侵检测领域内已知的全监督算法。
3)利用机器学习算法,如SVM,神经网络等,在进行攻击检测时,已经取得了良好的效果,但其存在产生的报警信息难于理解的问题已经影响到以上检测算法的广泛使 用。针对此问题,提出了一种针对所产生的报警信息的在线规则生成模型,利用该模型生成的规则,来提高安全管理员对当前发生的攻击的理解。在该模型中,解决了当将当前流行的关联规则生成算法应用到入侵检测的过程中所存在的问题:1)多遍扫描(至少两遍)2)攻击数据的非均衡分布所带来的算法失效和3)两阶段规则生成方法使得产生了众多的无用频繁集和所带来的计算时间的浪费等问题。
4)传统的入侵检测系统仅提供人量独立的、原始的攻击报警信息,使得用户仅仅局限于单个报警信息,缺乏对当前攻击的整体理解,不利于用户和入侵响应系统对攻击及时做出响应,因此,迫切需要根据低层的报警信息,建立高层的攻击场景,提高安全管理员对当前发生的攻击的认知度。文中利用贝叶斯规则首先对多个安全设备产生的报警信息进行过滤,生成了可信的报警事件集,在此基础上完成攻击场景的重构工作,减少了安全设备产生的误报信息对关联算法的影响、提高了关联算法的健壮性和可扩展性,另外,文中描述的关联方法可以使报警事件的聚合操作和攻击场景重构同时进行,实现了对报警事件的在线分析功能,弥补了现有算法的不足。