论文部分内容阅读
随着IT领域网络化、智能化以及快速的全球化发展,网络安全越来越成为炙手可热的研究课题。在诸多重要的网络安全的应用,如漏洞挖掘、模糊测试、入侵检测等,首先理解协议的语法是必需的条件。协议逆向工程通过对协议实体的网络输入/输出或者对系统行为进行监控和分析,就能够自动提取未知协议的语法信息,帮助理解协议的工作机制,在上述网络安全应用中是非常有价值的工具。因此,对于协议逆向工程的研究具有十分重要的意义。本课题是针对文本类型协议逆向解析技术进行分析,主要研究思路是:首先,分析了十几年来协议逆向工程领域的研究现状,介绍协议逆向工程的概念及应用领域。然后,对现有成果的核心技术,即以序列比对为核心算法的基于网络轨迹的协议逆向解析方法,和以动态污点分析技术为核心的基于程序执行轨迹的分析方法,进行系统性分析,并归纳出各自的特点和不足。基于上述研究,提出基于文本挖掘的协议逆向解析方案。该方案主要思想是利用文本挖掘的相关技术对大量同类文本协议消息进行分析,完成对协议语法的提取和展示。本文的核心工作成果包括:设计了基于文本挖掘的协议逆向解析方案的完整流程:通过wireshark抓包工具获取同类文本协议大量数据包,再对数据包进行预处理、分词、特征提取和结构建模,从而分析出协议的语法结构。在分词处理中,设计了基于二叉树模型的分词方法。在文本特征提取中,对经典文本特征提取算法TF-IDF进行改进。此外,采取基于XML的方法,进行功能模块间的数据传输以及文本特征结构模型的描述。最后,以HTTP协议和SIP协议为例详细展示了各部分的实现过程,对本文设计的方案进行测试,并与wireshark抓包工具的分析结果进行比对,对方案进行验证。结果表明:所设计的方案能够方便有效地完成对协议的逆向解析,如实反映协议消息的语法结构特征。