基于朴素贝叶斯算法在垃圾邮件过滤中的研究综述

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:happy08080808
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:朴素贝叶斯算法是理想化的算法模型,且基于条件特征相互独立的假设,不能满足实际应用。本文通过探究朴素贝叶斯算法的原理和操作步骤,并介绍基于此类算法的优化和改进,从而规避算法的不足,同时提高算法工作效率和文本过滤准确度。
  关键词:朴素贝叶斯;算法优化;文本过滤
  中图分类号:TP311 文献标识码:A
  文章编号:1009-3044(2020)14-0244-02
  1引言
  随着科学技术的飞速发展发展,伴随5G时代的到来。电子邮件成为人们日常生活和工作交流中不可或缺的方式Z--,但垃圾邮件也一直困扰着我们。根据卡巴斯基实验室表明,2019年第三季度,全球邮件流量中垃圾邮件的平均比例为56.26%,其中,前5个垃圾邮件来源国:中国排名第一(20.43%),其次是美国(13.37%)和俄罗斯(5.60%)。第四位是巴西(5.14%),第五位是法国(3.35%)。由此可见,我国的垃圾邮件处理形式依然不容乐观。因此,对于垃圾邮件过滤的需求愈发强烈,对垃圾邮件过滤技术的研究越来越先进。
  2研究现状
  垃邮件过滤的手段主要有以下3种。
  (1)黑白名单过滤。该方法主要分为黑白2个名单列表,当某个IP地址频繁发送垃圾邮件,这个lP地址将会被加人黑名单中,此后默认该地址发送的邮件为垃圾邮件。邮件白名单,顾名思义,也就是没有被标记为发送垃圾邮件的地址名单,此类邮件能够正常发送与接收。实时黑白名单技术,将黑白名单列表交给第三方的技术部门来维护,通过DNS来动态检测某个IP地址是否存在列表中。但这种方法存在弊端,当发送者采用动态或隐藏IP地址,那么此方法将受到限制。
  (2)基于规则的过滤技术。决策树模型是基于规则过滤技术的典型代表,早在1966年,在国外学者研究的关于概念学习的系统中就出现了决策树模型的身影,到1979年,迭代分类器算法的提出,再到后来这类算法在处理连续值属性数据的缺点上进行了改进。现在基于规则的过滤技术的算法虽然在一定程度上能够满足垃圾邮件的过滤需求,但其核心原理都是根据与预设规则进行比较,从而来判定是否为垃圾邮件,并且这些规则一般都是静态设置的,缺少可信度的学习策略,在规律不明显的应用领域中过滤效果较差,准确度较低。
  (3)基于内容统计的过滤技术。这类方法效率较高、速度较快、耗费较少,在文本过滤方面应用较为广泛。基于此类过滤技术中,最常用的算法是朴素贝叶斯算法。其中朴素贝叶斯算法实现思想简单、分类速度快,使用较少的训练集就能够获取一个待检文本数据的预估值,通常在使用朴素贝叶斯算法的时候,都要先对其样本特征属性进行分析。找到一个样本属性对样本数据全局的影响与其他特征属性是相互独立的,而这种假设往往是不符合实际应用的。因此,这类算法分类和过滤的准确率存在误差。
  3朴素贝叶斯算法模型
  朴素贝叶斯是一种基于贝叶斯决策理论的分类方法,它是贝叶斯分类器的一种拓展与衍生。朴素贝叶斯是在实践问题中基于“独立特征”的一种监督学习算法,其核心思想就是:将新数据与已知数据集作比较,选择高概率的结果来对新数据进行决策的一类学习方法。因此,又称朴素贝叶斯分类法为基于概率论的分类方法。
  朴素贝叶斯模型的一般过程为:收集数据(实际问题的数据集)—
其他文献
目的:总结激光光凝术治疗糖尿病视网膜病变的护理经验.方法:术前全面评估病情,做好患者的心理护理,强调术中眼位配合及术后的注意事项,密切观察患眼反应,指导患者根据医嘱按时
图形化取向层通常可用来调制光学性质,如偏振,相位和强度.光取向技术是用于制备图形化取向结构的最有前景的技术之一.通过将图形化光取向技术与向列相液晶相结合,可以制作电
摘要:该文首先介绍界面设计的含义,然后讨论了界面设计过去和现在的具体形态,提出了界面设计从人开始交流时便出现了的观点。随着生产力不断提高,界面设计的形式从无形的“口传”形式,逐渐演变出印刷等有形的形式、进而发展成如今多元化的人机界面形式,同时本文分析了界面设计未来的发展趋势,界面设计未来将朝着更加符合人行为的自然的界面形式发展,同时,当有形的界面发展到极致时,界面可能会转变为无形的界面。  关键词
随着数据中心规模的扩大,虚拟化数据中心中的管理操作变得无处不在,这给虚拟化平台带来了更大的压力.但是,由于业务的逐步增长和缺乏预先规划,容易造成ESXI主机资源使用不合
食管破裂是指因管腔内压力骤增,致使邻近横膈上的食管左侧壁全层纵行撕裂。又称自发性食管撕裂综合征、食管压力性破裂等。多数发生于饮酒、呕吐、进食硬物之后,食管壁全层破