论文部分内容阅读
随着互联网的快速发展,以信息交换和数据分发为目的的电子文档传播日趋频繁,便携式文档格式(Portable Document Format,PDF)已成为了全球电子文档传播格式的事实标准。但同时由于PDF文档易传播、易扩展等特点,PDF文档也成为网络攻击者实施恶意攻击的重要载体,越来越多的研究学者开始关注于PDF文档的安全问题。但是由于恶意PDF文档的恶意特征复杂化及攻击手段多样化等特点,现阶段的恶意PDF文档检测方法都存在一定的不足之处。如何提高对当前恶意PDF文档的检测准确性,并适应未来不断出现的恶意PDF文档,是当前恶意PDF文档检测技术研究的重点。本文研究了当前恶意PDF文档检测的研究背景、意义及发展现状,在目前绝大部分恶意PDF文档都是基于JavaScript代码的这一事实基础上,提出并实现了一个恶意PDF文档检测系统。在恶意PDF文档的特征生成与特征提取的研究中,首先提出了一种充分提取PDF文档中内嵌JavaScript代码的方案,并针对现阶段几种常见的代码混淆手段采取了相应的代码反混淆处理,可以有效地还原代码原始信息并提高对恶意PDF文档检测的准确率。其次针对恶意PDF文档特征的特点,本文基于TF-IDF算法进行特征生成,并对生成的特征进行分析。同时基于PCA算法进行特征提取,最终获得理想的恶意PDF文档多维特征向量。在恶意PDF文档检测模型的研究中,首先提出了一种改进的OCSVM算法分类器,通过对特定的恶意PDF文档特征设立子模型,有效地提高了对该类恶意PDF文档的检测准确率。其次针对传统检测模型无法有效利用大量未知PDF文档进行学习和训练的问题,本文基于Tri-training半监督学习算法建立了静态检测模型,提高了检测系统的检测能力及泛化能力。最后本文针对静态检测模型无法检测0day型恶意PDF文档的问题,提出了一种基于libemu的动态检测方法作为对静态检测模型的补充。实验结果表明,与传统的恶意PDF文档检测技术相比,本文提出的检测系统在对恶意PDF文档检测结果上拥有更为准确的检测率,验证了本文研究方案的可行性。