论文部分内容阅读
互联网的不断发展使其面临着越来越多的网络安全威胁,如何实时准确地检测复杂网络威胁行为是当前亟需解决的关键技术问题。基于警报关联的网络威胁行为检测技术因其与网络上大量部署的安全产品耦合,且能充分挖掘异常事件之间的关联关系以提供场景还原证据,正成为复杂威胁行为检测的研究热点。当前大规模复杂网络环境下,威胁行为的多样化、高频率给基于警报关联的威胁行为检测技术提出了严峻挑战。一是实时警报数据大规模产生、高速到达且分布不断变化,这要求所设计的基于警报关联的威胁行为检测算法具有高扩展能力以保证警报数据能够被快速处理;二是威胁行为不断升级更新且会出现未知类型,这要求所设计的基于警报关联的威胁行为检测算法具有主动发现能力以保证各种威胁行为均能被有效检测。目前基于警报关联的威胁行为检测技术相关研究多是基于集中式结构的算法设计,难以满足实时性的要求。已有算法大多需要一定的专家领域知识,难以有效检测未知威胁行为类型。为此,本文围绕实现分布式复杂威胁行为检测技术这一目标,对基于警报关联的已知威胁行为检测技术和未知威胁行为检测技术展开深入研究,并在分布式流处理平台进行分布式复杂威胁行为检测原型系统的实现。 大规模网络环境下,多样化网络威胁行为产生高速警报数据流,要求基于警报关联的威胁行为检测算法具有实时性和低系统开销。为此,本文提出了一种基于因果逻辑的通用可扩展已知威胁行为检测算法CausalAC。CausalAC基于因果逻辑对警报数据进行关联分析,能够有效检测各种已知网络威胁行为,并具备一定的未知威胁行为类型发现能力。通过一种基于混合式关联图划分算法的任务划分, CausalAC将警报分派至不同的处理单元以实现并行警报关联,同时保证算法的实时性和低开销。为了自适应警报数据分布的动态变化,CausalAC采用一种等待延迟感知的匹配任务调度技术,能够根据工作负载的波动自适应地重新分配任务,以保证负载均衡。实验表明,CausalAC随着处理单元数目的增长具有接近线性的加速比。与已有算法相比,CausalAC吞吐率提高了41%~66%,内存开销最高降低了65%,且通信开销最高降低了12%。 威胁行为不断升级更新且会出现未知类型,这要求基于警报关联的威胁行为检测算法能够挖掘警报数据中的未知关联关系。为此,本文提出一种基于数据挖掘的可扩展未知威胁行为主动发现算法ActiveAC。ActiveAC基于贝叶斯分析方法对警报数据对进行因果关联分析,对贝叶斯概率公式进行扩展,提出特征集关联因子的概念。通过一种关联特征挖掘算法,ActiveAC将特征集关联因子代替频繁项挖掘Apriori算法中支持度,挖掘关联警报类型对之间的强关联特征集,确定关联规则。另外,ActiveAC会根据警报数据流类型分布变化情况自适应地对关联因子进行更新,提供合适的更新粒度,在保证系统适应性的同时降低计算开销。使用一种流量感知的任务划分技术,ActiveAC将警报数据均等分配至各处理进程以保证系统负载均衡及高吞吐率。基于经典数据集 DARPA2000的实验表明, ActiveAC能够有效挖掘警报类型之间的因果关联关系,假正相关率低于5%,假负相关率低于5%。同时,ActiveAC具有良好的可扩展性,随着处理单元数目的增长具有接近线性的加速比。 为了进一步验证本文的理论研究成果,本文基于分布式流处理平台 Storm设计实现了通用可扩展的复杂威胁行为检测系统 GSCTD。GSCTD在分布式流处理环境中采用“分派-汇聚”系统架构。基于该架构,以CausalAC和ActiveAC作为算法基础,对应开发出被动防御模块应对已知威胁行为和主动发现模块挖掘未知威胁行为,被动防御模块基于规则知识库对威胁行为进行实时检测,主动发现模块挖掘警报数据之间的关联关系对规则知识库进行补充,两者相互协同工作。实验表明,GSCTD能够有效检测各类已知威胁行为和未知威胁行为。针对经典数据集(DARPA2000),有效还原了其中DDos攻击行为序列;针对真实网络数据集,共挖掘出14种可疑威胁行为序列,其中5种可被判定为威胁行为,其它尚无明确定义,但都具有显著的危害性。