论文部分内容阅读
摘要:朴素贝叶斯算法是理想化的算法模型,且基于条件特征相互独立的假设,不能满足实际应用。本文通过探究朴素贝叶斯算法的原理和操作步骤,并介绍基于此类算法的优化和改进,从而规避算法的不足,同时提高算法工作效率和文本过滤准确度。
关键词:朴素贝叶斯;算法优化;文本过滤
中图分类号:TP311 文献标识码:A
文章编号:1009-3044(2020)14-0244-02
1引言
随着科学技术的飞速发展发展,伴随5G时代的到来。电子邮件成为人们日常生活和工作交流中不可或缺的方式Z--,但垃圾邮件也一直困扰着我们。根据卡巴斯基实验室表明,2019年第三季度,全球邮件流量中垃圾邮件的平均比例为56.26%,其中,前5个垃圾邮件来源国:中国排名第一(20.43%),其次是美国(13.37%)和俄罗斯(5.60%)。第四位是巴西(5.14%),第五位是法国(3.35%)。由此可见,我国的垃圾邮件处理形式依然不容乐观。因此,对于垃圾邮件过滤的需求愈发强烈,对垃圾邮件过滤技术的研究越来越先进。
2研究现状
垃邮件过滤的手段主要有以下3种。
(1)黑白名单过滤。该方法主要分为黑白2个名单列表,当某个IP地址频繁发送垃圾邮件,这个lP地址将会被加人黑名单中,此后默认该地址发送的邮件为垃圾邮件。邮件白名单,顾名思义,也就是没有被标记为发送垃圾邮件的地址名单,此类邮件能够正常发送与接收。实时黑白名单技术,将黑白名单列表交给第三方的技术部门来维护,通过DNS来动态检测某个IP地址是否存在列表中。但这种方法存在弊端,当发送者采用动态或隐藏IP地址,那么此方法将受到限制。
(2)基于规则的过滤技术。决策树模型是基于规则过滤技术的典型代表,早在1966年,在国外学者研究的关于概念学习的系统中就出现了决策树模型的身影,到1979年,迭代分类器算法的提出,再到后来这类算法在处理连续值属性数据的缺点上进行了改进。现在基于规则的过滤技术的算法虽然在一定程度上能够满足垃圾邮件的过滤需求,但其核心原理都是根据与预设规则进行比较,从而来判定是否为垃圾邮件,并且这些规则一般都是静态设置的,缺少可信度的学习策略,在规律不明显的应用领域中过滤效果较差,准确度较低。
(3)基于内容统计的过滤技术。这类方法效率较高、速度较快、耗费较少,在文本过滤方面应用较为广泛。基于此类过滤技术中,最常用的算法是朴素贝叶斯算法。其中朴素贝叶斯算法实现思想简单、分类速度快,使用较少的训练集就能够获取一个待检文本数据的预估值,通常在使用朴素贝叶斯算法的时候,都要先对其样本特征属性进行分析。找到一个样本属性对样本数据全局的影响与其他特征属性是相互独立的,而这种假设往往是不符合实际应用的。因此,这类算法分类和过滤的准确率存在误差。
3朴素贝叶斯算法模型
朴素贝叶斯是一种基于贝叶斯决策理论的分类方法,它是贝叶斯分类器的一种拓展与衍生。朴素贝叶斯是在实践问题中基于“独立特征”的一种监督学习算法,其核心思想就是:将新数据与已知数据集作比较,选择高概率的结果来对新数据进行决策的一类学习方法。因此,又称朴素贝叶斯分类法为基于概率论的分类方法。
朴素贝叶斯模型的一般过程为:收集数据(实际问题的数据集)—
关键词:朴素贝叶斯;算法优化;文本过滤
中图分类号:TP311 文献标识码:A
文章编号:1009-3044(2020)14-0244-02
1引言
随着科学技术的飞速发展发展,伴随5G时代的到来。电子邮件成为人们日常生活和工作交流中不可或缺的方式Z--,但垃圾邮件也一直困扰着我们。根据卡巴斯基实验室表明,2019年第三季度,全球邮件流量中垃圾邮件的平均比例为56.26%,其中,前5个垃圾邮件来源国:中国排名第一(20.43%),其次是美国(13.37%)和俄罗斯(5.60%)。第四位是巴西(5.14%),第五位是法国(3.35%)。由此可见,我国的垃圾邮件处理形式依然不容乐观。因此,对于垃圾邮件过滤的需求愈发强烈,对垃圾邮件过滤技术的研究越来越先进。
2研究现状
垃邮件过滤的手段主要有以下3种。
(1)黑白名单过滤。该方法主要分为黑白2个名单列表,当某个IP地址频繁发送垃圾邮件,这个lP地址将会被加人黑名单中,此后默认该地址发送的邮件为垃圾邮件。邮件白名单,顾名思义,也就是没有被标记为发送垃圾邮件的地址名单,此类邮件能够正常发送与接收。实时黑白名单技术,将黑白名单列表交给第三方的技术部门来维护,通过DNS来动态检测某个IP地址是否存在列表中。但这种方法存在弊端,当发送者采用动态或隐藏IP地址,那么此方法将受到限制。
(2)基于规则的过滤技术。决策树模型是基于规则过滤技术的典型代表,早在1966年,在国外学者研究的关于概念学习的系统中就出现了决策树模型的身影,到1979年,迭代分类器算法的提出,再到后来这类算法在处理连续值属性数据的缺点上进行了改进。现在基于规则的过滤技术的算法虽然在一定程度上能够满足垃圾邮件的过滤需求,但其核心原理都是根据与预设规则进行比较,从而来判定是否为垃圾邮件,并且这些规则一般都是静态设置的,缺少可信度的学习策略,在规律不明显的应用领域中过滤效果较差,准确度较低。
(3)基于内容统计的过滤技术。这类方法效率较高、速度较快、耗费较少,在文本过滤方面应用较为广泛。基于此类过滤技术中,最常用的算法是朴素贝叶斯算法。其中朴素贝叶斯算法实现思想简单、分类速度快,使用较少的训练集就能够获取一个待检文本数据的预估值,通常在使用朴素贝叶斯算法的时候,都要先对其样本特征属性进行分析。找到一个样本属性对样本数据全局的影响与其他特征属性是相互独立的,而这种假设往往是不符合实际应用的。因此,这类算法分类和过滤的准确率存在误差。
3朴素贝叶斯算法模型
朴素贝叶斯是一种基于贝叶斯决策理论的分类方法,它是贝叶斯分类器的一种拓展与衍生。朴素贝叶斯是在实践问题中基于“独立特征”的一种监督学习算法,其核心思想就是:将新数据与已知数据集作比较,选择高概率的结果来对新数据进行决策的一类学习方法。因此,又称朴素贝叶斯分类法为基于概率论的分类方法。
朴素贝叶斯模型的一般过程为:收集数据(实际问题的数据集)—