基于机器学习的恶意代码特征提取与分类的研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:wrdyh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当前复杂网络环境下,恶意代码通过各种方式快速传播、非法入侵用户终端设备或网络设备、非法窃取用户隐私数据,对网络安全和信息安全造成了严重的威胁。几十年来,恶意代码的检测一直受到研究人员和安全厂商的关注。为了更准确地检测出恶意代码,本文将机器学习技术与恶意代码分析相结合,提出了恶意代码特征提取与分类的一系列新方法,与同类方法相比本文方法具有更好的分类准确率和识别能力,主要贡献如下:(1)提出了一种基于多层学习Bo VW模型的恶意代码可视化特征提取与分类的方法。引入“视觉词包”,将对恶意代码二进制可执行文件的分析转化为对灰度图像的分析。经过多层学习模型的分块、聚类、词包化过程获取更具鲁棒性的特征,该特征比全局特征更灵活、比局部特征更具有鲁棒性。多种分类器的实验结果表明,在多个数据集上Bo VW模型都能够获得较高的分类准确率。(2)提出了多特征融合的恶意代码特征表示方法,并有效提高恶意代码变体检测的准确率。给出了LBP算法的一种改进方法,并将全局特征(GIST)与局部特征(LBP或dense SIFT)相融合,构造抗混淆、抗干扰的融合特征,解决了在恶意代码灰度图像相似度较高或差异性较大时全局特征分类准确性急剧降低的问题。实验结果表明,该方法与传统方法相比具有更好的稳定性,在较易混淆的数据集上,分类准确率也有了明显的提高。(3)提出了一种恶意代码函数块操作码序列simhash相似性度量的新方法,能够有效解决由于simhash过于敏感造成恶意代码分类困难的问题。首先通过逆向工程提取样本的函数块操作码序列并计算simhash值,通过对simhash灰度图的特征提取与分类,解决了汉明距离难以判断函数块simhash值相似性的问题。实验结果表明,该方法不仅能够获得有效信息密度增强的分类特征,与传统方法相比,效率更高、分类结果更准确。同时,也为simhash降维提供了一种新的思路。(4)提出了一种基于概率主题模型的恶意代码无监督检测方法。本文结合潜在狄立克雷分布(latent Dirichlet allocation,LDA)获得汇编指令中潜在的“文档-主题”、“主题-词”的分布,给出一种无监督的恶意代码识别方法。以“主题分布”构造恶意样本特征,产生一个全新的恶意代码检测框架。并结合“困惑度”和变化的步长给出了最优“主题”数目的快速评价和自动确定方法,解决了LDA模型中主题数目需要预先指定的问题。同时解析了“文档-主题”、“主题-词”的聚集结果,说明了本文方法获得的样本特征具有潜在的语义信息。与其他方法相比本文方法能够准确地识别恶意代码的新变体。(5)提出了一种基于异质信息网络(heterogeneous information network,HIN)的恶意代码动态特征描述与分类的方法。通过沙盒动态获取样本的“API”、“DLL”信息,并构造异质信息网络。构建“FILE”、“API”、“DLL”三类对象的4种元图,刻画恶意代码HIN的网络模式。本文给出了改进的随机游走策略,尽可能多地获取元图中对象节点的上下文信息,将其作为CBOW模型的输入得到词向量的网络嵌入。通过投票方法改进主角度分析模型,得到多元图特征融合的分类结果。与他人方法相比,本文方法在仅可获得有限信息的情况下,大大提高了基于单元图特征的恶意样本分类准确率。本文方法更具有一般性、可还原性。图52幅,表34个,参考文献154篇。
其他文献
目的:检测5种多药耐药基因在乳腺癌细胞株MCF-7和MCF-7/ADR里的表达强度变化,为乳腺癌多药耐药逆转研究提供新的思路.方法:通过实时荧光定量PCR技术分别检测乳腺癌敏感细胞株
在过去的几十年里,语音意识的研究备受关注。研究多集中于调查英语为第二语言的儿童学习者的语音意识及其与儿童阅读能力的关系。相比之下,研究人员很少关注语音意识对青少年
目的:探讨普罗帕酮对心脏左心室流出道自律细胞与心室肌细胞电生理效应的影响。方法:应用常规的玻璃微电极细胞内记录技术,观察普罗帕酮对豚鼠左心室流出道自律细胞与心室肌细胞
工作负担已成为英格兰教师离职的重要驱动,减少对改进教与学无助的"不必"或"无效"负担是英格兰教师减负的关键。在政府主导、多元调研主体的持续努力下,英格兰教师减负政策体
为了实现多孔材料各项性能参数表征的自动化,该系统基于气泡法与中流量孔径法,采用单片机驱动硬件部分采集数据,通过RS232串行口将检测数据传送至上位机.软件系统采用X3协同管理系统中的业务建模工具,实现了试样数据处理,求得各项检测数据,并作对比分析.