论文部分内容阅读
在当前复杂网络环境下,恶意代码通过各种方式快速传播、非法入侵用户终端设备或网络设备、非法窃取用户隐私数据,对网络安全和信息安全造成了严重的威胁。几十年来,恶意代码的检测一直受到研究人员和安全厂商的关注。为了更准确地检测出恶意代码,本文将机器学习技术与恶意代码分析相结合,提出了恶意代码特征提取与分类的一系列新方法,与同类方法相比本文方法具有更好的分类准确率和识别能力,主要贡献如下:(1)提出了一种基于多层学习Bo VW模型的恶意代码可视化特征提取与分类的方法。引入“视觉词包”,将对恶意代码二进制可执行文件的分析转化为对灰度图像的分析。经过多层学习模型的分块、聚类、词包化过程获取更具鲁棒性的特征,该特征比全局特征更灵活、比局部特征更具有鲁棒性。多种分类器的实验结果表明,在多个数据集上Bo VW模型都能够获得较高的分类准确率。(2)提出了多特征融合的恶意代码特征表示方法,并有效提高恶意代码变体检测的准确率。给出了LBP算法的一种改进方法,并将全局特征(GIST)与局部特征(LBP或dense SIFT)相融合,构造抗混淆、抗干扰的融合特征,解决了在恶意代码灰度图像相似度较高或差异性较大时全局特征分类准确性急剧降低的问题。实验结果表明,该方法与传统方法相比具有更好的稳定性,在较易混淆的数据集上,分类准确率也有了明显的提高。(3)提出了一种恶意代码函数块操作码序列simhash相似性度量的新方法,能够有效解决由于simhash过于敏感造成恶意代码分类困难的问题。首先通过逆向工程提取样本的函数块操作码序列并计算simhash值,通过对simhash灰度图的特征提取与分类,解决了汉明距离难以判断函数块simhash值相似性的问题。实验结果表明,该方法不仅能够获得有效信息密度增强的分类特征,与传统方法相比,效率更高、分类结果更准确。同时,也为simhash降维提供了一种新的思路。(4)提出了一种基于概率主题模型的恶意代码无监督检测方法。本文结合潜在狄立克雷分布(latent Dirichlet allocation,LDA)获得汇编指令中潜在的“文档-主题”、“主题-词”的分布,给出一种无监督的恶意代码识别方法。以“主题分布”构造恶意样本特征,产生一个全新的恶意代码检测框架。并结合“困惑度”和变化的步长给出了最优“主题”数目的快速评价和自动确定方法,解决了LDA模型中主题数目需要预先指定的问题。同时解析了“文档-主题”、“主题-词”的聚集结果,说明了本文方法获得的样本特征具有潜在的语义信息。与其他方法相比本文方法能够准确地识别恶意代码的新变体。(5)提出了一种基于异质信息网络(heterogeneous information network,HIN)的恶意代码动态特征描述与分类的方法。通过沙盒动态获取样本的“API”、“DLL”信息,并构造异质信息网络。构建“FILE”、“API”、“DLL”三类对象的4种元图,刻画恶意代码HIN的网络模式。本文给出了改进的随机游走策略,尽可能多地获取元图中对象节点的上下文信息,将其作为CBOW模型的输入得到词向量的网络嵌入。通过投票方法改进主角度分析模型,得到多元图特征融合的分类结果。与他人方法相比,本文方法在仅可获得有限信息的情况下,大大提高了基于单元图特征的恶意样本分类准确率。本文方法更具有一般性、可还原性。图52幅,表34个,参考文献154篇。