论文部分内容阅读
随着计算机网络的飞速发展,越来越多的人开始注重保护个人隐私及重要数据。各种恶意性文档的出现给人们工作和生活带来了巨大危害,其中,Microsoft Word和PDF等比较大众化的文档编辑和查看软件成为了攻击者的目标,各种恶意性攻击层出不穷,漏洞数量急剧上升,给人们造成了不可挽回的损失。若能针对可疑的Word和PDF文档,设计出快速有效的检测算法,这将在某种程度上大大遏制恶意性文档的危害。针对上述问题,在研究Word和PDF文档安全性背景的基础上,分析了Word和PDF文档常见的攻击方式,阐述了目前的检测研究现状。已知的恶意程序检测系统中,动态检测的缺点是检测时间过长,静态检测的缺点是准确度不高。机器学习算法拥有对数据进行分析和建模的能力,可以挖掘蕴藏的统计规律,越来越多的安全领域研究者尝试使用它进行恶意程序检测。本文在已有研究方法的基础上,提出两种基于机器学习的快速有效的检测算法:1)基于API行为特征和Inception V3模型的Word和PDF恶意性动态检测沙箱技术是当前最常用的动态分析技术,但它是以时间开销和虚拟化指令系统为代价的。在改进的Cuckoo沙箱系统基础上,设计了一种基于深度学习模型GoogLeNet Inception V3的Word和PDF文档的恶意性动态检测算法。对改进的Cuckoo沙箱系统的文档运行结果根据API依赖关系进行抽象,得到文档的特征向量,再进行维度转换,以二维特征作为算法的输入。Inception V3网络会提取每幅二维图像的Bottleneck特征,接着采用迁移学习的方法训练分类器,最后实现文档的恶意性动态检测。实验证明,该算法在对未知Word和PDF文档的恶意性检测上取得了较好的时间性能,而且检测率达到了89.1%。2)基于K-means和深度文本特征检测网络的PDF恶意性静态检测传统的PDF文档静态检测一般是针对于某种特定的攻击方式,而且检测率较低。针对这些问题,设计了一种PDF文档的恶意性静态检测算法,它包括两个方面:基于K-means的区别性文本特征的提取和基于深度文本特征检测网络的算法分类。通过PDF解析工具PDFMiner和K-means聚类算法提取到恶意和正常PDF的区别性文本特征,作为算法的输入;深度文本特征检测网络是一种设计的15层的深度线性神经网络结构。实验证明,该算法对未知PDF文档的恶意性检测率达到了86.6%,而且可以有效处理不同攻击方式下的恶意性PDF文档的检测问题。