论文部分内容阅读
大数据时代,网络安全仍是举足轻重的话题。在海量信息中,不乏非法分子利用网络骗取用户信任并从中获利,钓鱼网站就是其中之一。“钓鱼”网站的网址、网页内容、布局等与真实网站极其相似,没有安全意识的网民容易因此上当受骗,造成严重后果。有效遏制“钓鱼网站”是网络安全的保障。目前,国内外在防御钓鱼网站的研究上各有建树,然而都存在缺陷。现有的比较典型的检测钓鱼网站的方法有:基于黑白名单机制的检测、基于文本特征或网页图像特征的匹配检测、基于机器学习的分类检测。然而,基于黑白名单的检测方法时效性较差、名单范围也存在着不足,基于特征的算法的准确性和鲁棒性又不是很理想。近年来,机器学习应用于各领域并取得巨大成功,尤其是将深度学习应用于检测识别可以有效得提高检测效率。鉴于以上,本文研究已有的技术方法,提出基于深度学习的、具有鲁棒性的钓鱼网站检测方法。基于深度学习的钓鱼网站检测主要研究以下内容:钓鱼网站的特征提取是识别钓鱼网站的基础也是关键的一步,一个好的特征提取方法对检测结果起着至关重要的作用。通过对钓鱼网站特征的调研,以及对前人研究的总结,本文把网站页面和网页网址相结合,分别提取关于网页内容异常和链接异常的关键特征。为了提高检测速度和减少误判率采用了URL过滤器,并对爬取的URL进行相似度检测进一步提高检测的准确性,将网址特征和网页特征进行预处理并保存成特征向量以待下一模块的检测识别。近几年深度学习技术的提出以及其出色的特征学习能力使其在各领域的应用中取得巨大成功。因此,本文研究基于深度学习的钓鱼网站分类识别方法,并提出多层结构的DBN-KNN模型,将其运用到钓鱼网站特征的识别中,再对上述提取的特征向量进行学习、训练和分类,最后根据分类结果判别出钓鱼网站。综上,本学术论文针对现有检测方法的缺陷,研究基于深度学习的钓鱼网站检测方法。首先,爬取钓鱼网站数据并进行URL过滤和相似度检测;然后,人工分析并提取钓鱼网站的关键特征再对特征进行预处理;最后,提出深度学习模型DBN-KNN对特性向量进行训练分类,识别出钓鱼网站。