论文部分内容阅读
随着互联网技术的发展,人们在享受互联网带来的便捷的同时,因为网络安全意识薄弱以及网站漏洞等被网络攻击者关注。钓鱼网站、网络木马等网络攻击日益威胁着用户的个人隐私和财产安全。攻击手段日益复杂给检测带来巨大挑战。针对已有URL词汇特征不足、优化准确率无法应对类别不均衡、恶意网页生命周期缩短等问题,基于分词技术并且提取结合上下文和位置信息相关特征,并改进在线主动学习的目标函数,提出基于成本敏感在线主动学习的恶意网页检测方法。主要研究内容及创新点如下:(1)针对现有URL词汇特征提取方面未涵盖到上下文和位置信息的问题,在基于URL领域知识的分词技术的基础上,使用卷积提取相应词汇特征,覆盖到词汇的上下文和位置信息。其中,基于领域知识的分词技术中,分析URL文本分词处理和普通的自然语言处理之间的区别。根据字符间的视觉相似性改进编辑距离来计算域名与品牌名词之间的相似度。分词后的文本使用word2vec生成词向量,再使用4类不同高度,共400个卷积核将词向量转化为特征向量。增加了词汇的上下文和位置信息特征。(2)除了对网页提取URL相关特征之外,为了弥补URL缩短服务导致URL相关特征失效的问题,还提取网页内容相关特征,基于结构分析、内部脚本分析和外部脚本分析提取JavaScript代码相关特征,并分别从网络钓鱼和网页挂马两个领域提取HTML代码相关特征。(3)常规有监督学习方法优化准确率来构建模型,恶意网页检测任务中数据类别分布极度不均衡,简单将网页预测为良性即可达到非常高的准确率,准确率不宜为其优化目标。考虑类别不均衡引起误判代价的差别,用成本敏感指标作为优化目标和评价指标,根据成本敏感指标推导成学习算法,并结合在线学习模型结合成本敏感指标的优化目标的封闭解,可满足实时恶意网页检测的要求。另外,主动学习主动查询网页标签用于模型训练。