基于深度学习的恶意风险网站过滤系统

来源 :客联 | 被引量 : 0次 | 上传用户:tinnawang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘 要】本文基于轻检测、重检测与深度学习目标识别算法,利用嵌入式设备开发平台开发,以设计一个恶意风险网站过滤系统为目标进行了一个研究,并进行了测试。实验结果表明该系统满足上述要求并有较好的稳定性。
  【关键词】层次化检测方法;目标识别;深度学习;网站过滤系统
  Abstract: Based on the algorithm of light detection, heavy detection and deep learning target identification, this paper USES the embedded device development platform to design a malicious risk website filtering system as the target to carry out a study, and carried out a test. The experimental results show that the system satisfies the above requirements and has good stability.
  Keywords: Hierarchical detection method, target recognition, deep learning, website filtering system
  一、层次化检测方法简介
  轻检测
  轻检测算法需要轻便、快速、尽量准确,并达到最少数量的漏报,以达到对巨大输入进行预处理和数据筛选的作用。针对 A 的每一个 URL,若符合以下任意一个条件,则进入到重检测,否则丢弃。
  (1)IP 地址曾经被恶意网站使用根据实践经验,一个曾经被用于恶意网站的 IP地址再次被利用做恶意的可能性较大。
  (2)域名注册信息曾经用于注册过恶意网站同 IP 地址一样,同样的域名注册信息可以用来注册多个恶意网站。
  (3)域名曾被恶意网站使用过如果域名之前被恶意网站使用过,那么其再次被利用的可能性也比较大。
  (4)与 B 中任意 URL 含有相同的资源链接恶意网站在设计时,为了简单,其中的图片等元素经常会使用合法网站中的资源链接。
  (5)与 B 中任意 URL 的标题一致恶意网站为了达到仿冒的目的,一般都会和合法网站具有相同的标题。
  (6)含有 B 中某些重要的关键字
  因为恶意网站是仿冒正常的合法网站,所以页面内容一般具有和合法网站一样的文字内容。
  二、黑白名单技术
  黑白名单的主要作用是,让GMSC有权限允许或禁止由特定源点发起,或到特定目的地的电话。简单地说,黑名单英语禁止呼叫,白名单允许呼叫。GMSC的判断标准是预先在WEM伤配置好的Trunk Group,号马前缀或属性等特性。
  黑白名单有三个工作模式,黑名单,白名单
  在黑名单模式下,只有设置为黑名单的配置生效,白名单同理。需要特别说明的是,在黑白模式下,黑名单和白名单的配置都生效,但是白名单的优先级高于黑名单,如果在同一个呼叫中,主叫或被叫有一方是白名单,呼叫允许。
  三、深度学习模型设计
  深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。
  深度学习的概念由Hinton等人于2006年提出。基于深信度网(DBN)提出非监督贪心逐层训练算法,为解决深层结构相关的优化难题带来希望,随后提出多层自动编码器深层结构。此外Lecun等人提出的卷积神经网络是第一个真正多层结构学习算法,它利用空间相对关系减少参数数目以提高训练性能。
  深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。
  四、实验过程
  (一)实验环境
  1.基于深度学习中的深度信念网络采用一种无监督训练方式使得整个网络能以最大概率来生成训练数据,我们可以使用它来进行数据分类。如下:图一为网络结构图
  通过对比分歧算法逐层训练每个RBM,最终每一层的RBM的参数集w、o6构成DBN网络中的所有参数集,并用来初始化整个深度信念网络。预训练之后,通过在深度信念网络顶层叠加分类器,例如反向传播算法、支持向量机等,使用带标签的数据来对网络中参数进行微调,调整DBN的判别性能。
  2.使用欠采样常常会导致丢失一些有用的多数类样本信息,而使用过采样则会增大过分拟合的可能性,充分考虑算法的复杂性和在整个恶意网站检测系统的应用场景,我们最终选择使用Borderline-Smote过采样方法[49]Borderline-Smote是基于Smote算法(Sybthetyc Minority Over-samplingTechnique),此算法是使用过采样小类样本来生成合成小类实例。不同于己经存在的过采样方法,Borderline-Smote过采样方法只富化边界小类实例(Borderline MinorityExample)。首先我们找到边界小类实例,然后从边界小类中生成合成小类实例,并添加到原始训练集中。基于Borderline-Smote DBN的分析模型,通过混合釆用Borderline-Smote1和Borderline-Smote2两种方法,对数据进行采样生成合成样本时,先后使用这两种方法。也即可以生成2s個合成样本。
  3.恶意网站检测的基础也是最重要的一个环节就是特征值的提取,特征值的提取将很大程度上决定了恶意网站检测模型的准确度。网站页面在恶意网站识别中的关键特征包括URL(Uniform Resource Locator,统一资源定位符)特征、页面内容特征以及图像特征,综合考虑特征的重要程度以及提取效率等因素。   4.而特征提取则主要分为URL特征提取、HTML特征提取、以及特征向量的预处理
  1).URL特征提取:
  URL是网站的唯一定位符,通过在浏览器输入网站URL,用户可以进入访问该网站。其拥有统一的传输协议、数据格式、资源类型以及语法等。互联网上所有访问的图片、视频、文章都称为数据资源,每个资源都有唯一的一个URL地址,用户可以通过对应的URL地址找到需要访问的资源。攻击者通过在对应正规网站域名上进行操作,构造出与正规网站相似的域名或利用漏洞直接在正常网站地址后添加自己的恶意链接,从而诱导网民落入恶意网站。因此我们可以从URL路径级数、URL长度、域名是否为IP形式、域名级数、URL是否使用长词、URL中是否含有敏感词、URL中顶级域名出现在异常位置、URL中是否含有端口、URL中是否有“@”符、域名存活时间等方面来进行URL特征提取。
  2)HTML特征提取
  通过深入分析网页HTML文档特征、结构特征可以更加精确判断恶意网站。恶意网站为了更逼真仿冒真实网站,常常会加上真实网站的版权信息。而网站的版权所有者和网站是一一对应的,通过比对当前访问网站的版权信息可以判断是否为恶意网站。如:空链接的数目、外部链接数目、内部链接数目、表单数量、注册时间、版权所有者。
  (二)实验过程
  步骤 1:获取网站的多维属性,利用集合对多
  维属性进行表示。
  ①提取网站首页超文本标记语言 HTML 标题、HTML 正文和层叠样式表 CSS 主题色彩;
  ②对所述 HTML 标题和 HTML 正文进行分词处理,得到单词向量集合 B={w1,w2…wn},n 为正整数;'
  ③对每一个向量 B 的单词 wi,统计其在网页HTML 的 标 签 <a>、<h1>-<h6><title>、<em>、<strong> 中出现的次数。按出现的次数加权后排名,得到排名后新单词向量集合 B'={w1,w'2…w'm},其中i=0,1…n,m 为正整数,且 m ≤ n;
  ④统计所述 CSS 主题色彩中使用最多的 3 种颜色类别,得到色彩向量描述集合 C,C={c1,c2,c3};
  ⑤获取属性值,建立属性描述集合 S,其中屬性值包括下述中的一项或多项:网站务器类型、Poweredby 信息(驱动信息)、脚本语言类型、返回状态码、跳转次数、网处、外域个数、内域个数和页面大小;
  ⑥根据集合 B'、C 和 S,建立网站多维属性样本集合 V,V=B'∪ C ∪ S,其中∪表示并集。
  步骤 2:针对表示多维属性的集合,进行自编码特征学习。
  ①构建三层神经网络 N,其输入特征数量等于输出数量,且输入特征数量等于网站多维属性集合V 的特征数量;
  ②用网站多维属性集合 V 作为三层神经网络 N的输入值 Input,计算当前三层神经网络环境下的输出值 Output;
  ③比较输入值 Input 与输出值 Output,计算二者之差是否达到目标阈值;如果达到目标阈值,则完成学习,中间隐层节点向量 V '即为自编码学习结果;如果没有达到目阈值,则根据梯度下降法调整三层神经网络 N 的参数,重新计算。
  步骤 3:利用自编码学习结果进行网站聚类学习,得到用于进行网站分类的支持向量 SVM 构建支持向量机 SVM,这里使用向量 V '作为输入。1014388653骤 1 和步骤 2,得到与该网站对应的自编码学习结果;然后,将与该网站对应的自编码学习结果输入到步骤 3,得到用于进行网站分类的支持向量机SVM进行网站分类,从而得到网站类别。本方法对于具有恶意特征的恶意网页,能快速侦测;采用多维属性描述方式,增加了系统的便利性与通用性;采用机器学习的方法且采样样本较为广泛,因此系统具有极强的稳定性。
  (三)实验结果
  最后我们可以通过层次化检测方法保证检测的准确性,以及极大地提升系统的运行效率。成功用深度学习实现了恶意风险网站过滤。
其他文献
【摘 要】新媒体不断发展变化,广告环境也发生了巨变。为应对新环境的机遇与挑战,越来越多的高校逐步建立起与市场接轨的实践教学体系,搭建相应的实践平台,促使学生将理论知识与市场接轨。基于广告学专业的教育现状及社会行业的需要,通过对实践平台搭建现状的分析,做出实践平台搭建对广告专业学生创新创意实践活动的影响研究,并根据其积极影响和存在的问题提出改进建议及对策。  【关键词】广告学;实践平台;创新;教育 
期刊
【摘 要】社会的发展需要创新,高校开展创新创业课程教学,旨在培养大学生创新创业精神和实践能力,而将课程思政融入到创新创业课程教育之中具有重大意义。课程思政融入民办高校创新创业课程的建设路径是本文探讨的重点。  【关键词】创新创业课程;课程思政;融入;路径   习总书记在2016年12月强调:要把立德树人融入思想政治教育、专业知识教育、社会实践锻炼的各个环节,在大学生人才培养中实现知识体系教育与思
期刊
罪犯教育作为我系的一门专业核心课程,担负着联结学校理论学习和监狱实际工作的桥梁作用,作为一名刑事执行专业的专任教师,代了数年的罪犯教育课,从一无所知到略有了解,始终存在很多困惑。这几年在我省多个监狱调研过,但因种种原因一直未去过女监,未和罪犯有过近距离接触,没有现场感受过真正意义上的罪犯教育,所以专业水平一直停留在纸上得来终觉浅的地步。现就自身实际情况谈谈我自己对于罪犯教育这门课的一点心得体会。 
期刊
【摘 要】随着我国人口老龄化的现象越来越严重,养老问题成了公众所广泛关注的问题。社区居家养老服务的出现不仅可以避免机构养老中出现的忽略老人特性的情况,而且解决了家庭养老中缺乏专业服务的问题。本研究将在了解老人对社区居家养老的需求的基础上,总结出社区居家养老的现存问题,并通过探索相关对策,以促进社区居家养老服务的发展,提高老人晚年生活质量。  【关键词】社区居家养老;问题;对策  一、研究背景  
期刊
【摘 要】本文以甲公司为例简单分析它的现金流量管理问题,找出甲公司现下在现金流管理方面出现的严重的问题,并针对出现的问题和可能出现的问题提出解决方法,从而促进该企业的可持续性发展。  【关键词】民营企业;现金流;管理   我国国民经济发展全局因农牧业的发展有所牵制,国家想要发展经济势必要将发展农牧业作为重中之重。由于近年来国内发生很多经济政策、形势以及农牧业技术发展的变化,例如环保高压政策等,导致
期刊
【摘 要】在文化盛行的新时代,高校文化建设也进入人们的视野中。高校文化建设贯穿始终,其中就有以服饰为载体的高校文化传播方式,以班级特色文化为核心开展的高校文化建设。这种模式利用服饰的设计理念和学生的创新思维相结合来促进高校文化建设的发展,培养当代大学生的社会主义核心价值观。  【关键词】校园文化;服饰;理念;传播  一、服饰对校园文化建设的意义   随着国家高度重视文化建设发展和社会主义核心价值
期刊
【摘 要】随着经济全球化的发展,中国在国际社会中展现出的大国风范对国际贸易起到了举重若轻的作用。随着中国“一带一路”的提出,基础设施对中国与周边国家间贸易的影响更是成为了全球共识。中国与周边国家都在积极加强本国的基础设施建设,同时中国也对周边国家给予了大量基础设施建设援助。本文通过研究基础设施建设对我国与周边国家间贸易的影响,将基础设施各要素禀赋结构结合起来考察基础设施对中国与周边国家间贸易的影响
期刊
【摘 要】2020年初爆发于中国武汉的新型冠状病毒肺炎疫情已得到有效控制,回顾半年来与疫情相关的应急科学传播,可以窥见国家各级媒体在重大公共卫生事件中启动的应急科学传播策略及传播作用机制。本文通过对疫情爆发前期——2019年12月30日至2020年1月31日之间人民日报微信公众号发布的有关新冠肺炎的推文做分析,尝试找出作为中国第一大主流媒体的人民日报微信公众号的应急科普策略,以图为其他主流媒体或自
期刊
【摘 要】近三年广汉农商银行信访量呈逐年下降趋势,由2017年1笔,到2018年暂无,2019年暂无。本文拟结合广汉农商银行信访工作实际,谈谈如何压降农信社信访量。  【关键词】广汉农商银行;信访量;下降趋势   信访是指公民、法人或者其他组织采用书信、电子邮件、传真、电话、走访等形式,向各级人民政府、县级以上人民政府工作部门反映情况,提出建议、意见或者投诉请求,依法由有关行政机关处理的活动。信
期刊
【摘 要】高等院校开设《英语演讲》课程存在讲练分离、学生英语水平参差不齐、考核形式单一等系列問题,需要构建新的教学范式,解决具体教学过程中存在的种种问题。本文提出使用BOPPPS教学模型,在班级教学中实施线上线下的混合教学模式,利用“互联网+”带来的新技术,结合多种教学手段,并改进课程考核方式,从学生的知识、能力、素质等多维角度出发,提高学生的英语演讲水平,符合新文科背景下对高素质复合型外语人才的
期刊