基于深度学习的钓鱼网站检测技术的研究

来源 :电子科技大学 | 被引量 : 11次 | 上传用户:liuliushuang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代,网络安全仍是举足轻重的话题。在海量信息中,不乏非法分子利用网络骗取用户信任并从中获利,钓鱼网站就是其中之一。“钓鱼”网站的网址、网页内容、布局等与真实网站极其相似,没有安全意识的网民容易因此上当受骗,造成严重后果。有效遏制“钓鱼网站”是网络安全的保障。目前,国内外在防御钓鱼网站的研究上各有建树,然而都存在缺陷。现有的比较典型的检测钓鱼网站的方法有:基于黑白名单机制的检测、基于文本特征或网页图像特征的匹配检测、基于机器学习的分类检测。然而,基于黑白名单的检测方法时效性较差、名单范围也存在着不足,基于特征的算法的准确性和鲁棒性又不是很理想。近年来,机器学习应用于各领域并取得巨大成功,尤其是将深度学习应用于检测识别可以有效得提高检测效率。鉴于以上,本文研究已有的技术方法,提出基于深度学习的、具有鲁棒性的钓鱼网站检测方法。基于深度学习的钓鱼网站检测主要研究以下内容:钓鱼网站的特征提取是识别钓鱼网站的基础也是关键的一步,一个好的特征提取方法对检测结果起着至关重要的作用。通过对钓鱼网站特征的调研,以及对前人研究的总结,本文把网站页面和网页网址相结合,分别提取关于网页内容异常和链接异常的关键特征。为了提高检测速度和减少误判率采用了URL过滤器,并对爬取的URL进行相似度检测进一步提高检测的准确性,将网址特征和网页特征进行预处理并保存成特征向量以待下一模块的检测识别。近几年深度学习技术的提出以及其出色的特征学习能力使其在各领域的应用中取得巨大成功。因此,本文研究基于深度学习的钓鱼网站分类识别方法,并提出多层结构的DBN-KNN模型,将其运用到钓鱼网站特征的识别中,再对上述提取的特征向量进行学习、训练和分类,最后根据分类结果判别出钓鱼网站。综上,本学术论文针对现有检测方法的缺陷,研究基于深度学习的钓鱼网站检测方法。首先,爬取钓鱼网站数据并进行URL过滤和相似度检测;然后,人工分析并提取钓鱼网站的关键特征再对特征进行预处理;最后,提出深度学习模型DBN-KNN对特性向量进行训练分类,识别出钓鱼网站。
其他文献
教育经济学作为一门新兴的交叉学科逐渐在社会、经济的发展中发挥重要作用,本文试就这一学科理论对高等教育改革可能产生的影响谈一些认识.
介绍坐标测量机测头性能参数的校准和补偿方法;设计一套基于三维微宏移动平台和测力传感器的校准系统;采用该系统对坐标测量机模拟式测头的触发变形进行实验研究,获得测头的
针对供电区域内变电站负荷情况,对变压器容量选择的原则及经济运行的条件和要求进行分析,结合现场实际应用情况,介绍变压器供电负荷、经济运行与容量选择之间安全和经济效益
目的:术后认知功能障碍(postoperative cognitive dysfunction,POCD)是麻醉手术后出现的一种常见中枢神经系统并发症,尤其好发于老年患者,但其具体机制尚不清楚。微清蛋白(pa
从技术性能和经济性等角度详细分析了"Y型"联接型式及"Δ型"联接型式的特点,总结出适合南方电网±200MVA链式静止补偿器STATCOM的主电路联接型式。
针对目前中国高校英语语法教学的现状,采用把克拉申第二语言学习理论与我国英语语法教学实践相结合的办法,指出了中国高校英语语法教学领域里存在的不足,阐述了为学习者创造
人力资源是旅游业发展的第一资源,苏锡常地区是我国旅游业发达地区,导游职业队伍能力水平直接影响着旅游服务质量和地区旅游业品牌形象。而近年来,苏锡常地区导游职业吸引力
我国当前的工作日休息时间保护制度存在缺陷,对8小时工作时间的开始和结束如何计时付之阙如,对用人单位可以延长劳动者工时的条件存在争议,对延长工时的补偿制度和违反工时规
文章在介绍图书馆读者焦虑情绪概念的基础上,分析图书馆焦虑情绪对读者使用图书馆的影响,从读者自身、图书馆环境和图书馆员三个方面剖析了图书馆读者焦虑情绪产生的原因。最
近年来在风电技术不断发展的过程中,先后涌现出多种不同的风力发电机及其控制技术。人们对这些风力发电机的研究焦点是如何使其更高效更可靠地实现风能向电能的转换。本文先