论文部分内容阅读
网络技术是当今社会极其重要的信息交流手段,已经深刻地影响到国家的政治、经济、文化等各个领域。与此同时,互联网的开放性和安全漏洞给互联网的健康发展带来了不可忽视的负面效应,各种色情、反动和诈骗等非法信息以及病毒的传播,内部网中机密信息的泄漏等负面效应不仅给国家和个人造成了巨大的经济损失,同时也影响到了社会的稳定。目前,研究如何高效、及时、准确地发现网络中的有害信息,加以控制,进而实现对网络虚拟社会的有效监管已经成为互联网建设过程中一项迫切任务。网络内容分析识别技术是发现与遏制网络安全威胁,滤除有害信息的重要技术手段,是实现网络信息监管的重要基础,对支持互联网的健康有序发展具有重大意义。本文针对现有网络内容分析识别系统空间复杂度过高,处理速率不足以及难以适应正则表达式规则集动态更新要求三个方面的主要问题进行研究,提出了多种改进结构的自动机模型及相关算法。主要内容归纳如下:1、在对高速网络内容分析识别系统进行需求分析的基础上,说明了网络内容分析识别系统的体系架构,并阐明了相关基础理论。首先,从网络内容分析识别系统的功能模型、结构模型、部署位置以及评价指标等方面对网络内容分析识别系统的体系架构进行了阐释。然后,对网络内容分析识别技术涉及的正则表达式的基本理论以及有限自动机理论进行说明,并介绍了有限自动机应用于网络内容分析识别系统的基本过程。2、提出了一种多缺省转移确定型有限自动机MD~2FA,以解决网络内容分析识别系统空间复杂度过大的问题。MD~2FA的主要思想是基于对自动机中不同状态间转移边相似性的观察,以适量增加单个状态中的缺省转移边数量为代价降低系统的空间复杂度。首先,介绍了MD~2FA的基本结构,并证明了其与确定型有限自动机在功能上的等价性。然后,在发现MD~2FA的构建过程等价为集合覆盖问题的基础上,提出了一种启发式的MD~2FA构建算法。最后,在分析了MD~2FA相关参数对网络内容分析识别系统性能影响的基础上,通过实验验证了MD~2FA的各方面性能。MD~2FA存储压缩效率高,构建时间短,因而其更加适用于具有大规模正则表达式规则集的高速网络内容分析识别系统。3、提出了一种基于正则表达式采样的加速模型,以提高网络内容分析识别系统的处理速率。此加速模型借鉴了信号处理技术中的采样思想,通过对正则表达式规则进行采样进而构建采样自动机,并利用采样自动机对采样流量进行分析识别,最后对采样自动机的匹配结果进行综合判定。本文对该加速模型在单处理单元和多处理单元两种不同处理架构下的加速实现方法进行了讨论,两者的不同点主要在于验证方式不同。此加速模型在单处理单元架构下只需对部分网络流量进行分析,在多处理单元架构下可实现高效的任务分解,因此可取得良好的加速效果,提高了网络内容分析识别系统的处理速率。4、提出了一种网络内容分析识别系统的正则表达式规则更新算法,实现了正则表达式规则集的规则增加操作、规则删除操作以及规则修改操作,解决了网络内容分析识别系统规则更新耗费时间过长的问题。从DFA最小化、DFA的增量构建、规则删除三个角度解决网络内容分析识别系统规则更新问题。提出了基于反向深度信息的最小化方法、DFA增量构建算法、规则删除算法,实现了网络内容分析识别系统低时间复杂度的规则更新。综上所述,针对骨干网内容分析识别过程中的若干关键技术问题,本文的研究工作提出了切实可行的解决方案,为构建高速网络内容分析识别系统、实现互联网信息监管等提供了理论和技术层面上的支持。