基于改进贝叶斯算法的垃圾邮件过滤系统研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:fanrongcheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着因特网的快速发展,电子邮件作为一种快捷、经济的通信方式,给人们工作生活带来了深刻影响。但是同时,大量垃圾邮件开始在网络中蔓延,占据了邮件服务器大量的传输、存储和计算资源,用户往往要花费很多时间去处理无任何价值的垃圾邮件。因此,研究过滤性能更佳的垃圾邮件过滤技术具有重要意义,反垃圾邮件技术已成为影响互联网发展的重要课题之一,也是当前信息处理领域的一个研究热点。 邮件的自动过滤技术主要有基于规则和基于统计概率两种方式。基于概率的朴素贝叶斯(Bayes)算法具有方法简单、运算速度快、分类精确度高等优点,在文本分类中得到广泛应用。但是,在邮件过滤过程中,合法邮件被误判为垃圾邮件将可能给用户带来巨大的损失。同时,朴素贝叶斯算法在对邮件进行分类与过滤时,没有充分考虑到合法邮件与垃圾邮件具有的不同特性,因此用于邮件过滤时有一定的局限性。 本文研究了当前流行邮件分类器的工作原理及其优缺点,分析了传统贝叶斯算法在邮件过滤过程中所存在的局限性。在此基础上,在预处理分词阶段采用二元短路径粗分分词方法进行分词预处理,较好地实现了邮件文本的分词功能。特征提取时,首先进行噪声过滤,去除掉原本无用的干扰特征词,将相对系数引入TFIDF方法中计算权值,据此对特征向量进行评估,实现特征向量空间降维,减小特征项的数量。 在过滤阶段通过对计算步骤调整优化了局部朴素贝叶斯邮件过滤算法,并建立了垃圾邮件过滤器模型,实验结果表明,该模型能在正确分类邮件的同时,减少合法邮件的误判率,在对垃圾邮件进行分类与过滤时具有较好的性能。 基于上述研究算法,以及对电子邮件等协议的研究,本文主要采用JSP技术,以及C++语言开发实现了一个基于改进局部朴素贝叶斯算法、具有反垃圾邮件功能的邮件系统。该系统具有收发、转发邮件、基于贝叶斯算法和黑白名单以及规则的垃圾邮件过滤、支持邮件代理如Outlook等功能。
其他文献
随着科技的发展,人类迈入了信息社会。由此可以预见:现代战争逐渐进入信息化为主导的战争。因此,本课题研究的军用单兵单车移动平台通信系统具有重大的意义,本文主要针对军用移动
近年来,随着大规模存储、高性能工作站以及宽带网络等技术突飞猛进的进步,互联网上传输的信息不再仅仅局限于单调的文本和静态的图像,而是包含了越来越多的更加符合人们通信习惯
本文对基于Boosting算法的人脸检测进行了研究。主要内容包括: (1)用于人脸检测的弱分类器选择。针对人脸检测问题对矩形特征分类器和线性分类器做山了分析,并提出了整数规
为了实现成像卫星探测和信号探测两种探测手段的协同,有效地利用卫星资源,本文对面向多源信息协同探测的成像卫星任务规划展开研究,建立成像卫星任务规划模型并分析成像卫星
本文对电子提花机嵌入式系统进行了研究。主要内容包括: 1.分析了目前国内外电子提花机的现状和发展趋势,比较了目前应用较普遍的电子提花机的特点及性能; 2.详细论述了基于
随着社会的发展,很多行业和领域对快速有效的自动身份验证的要求日益迫切。其中,利用人脸特性进行身份验证是最自然最直接的手段。自动人脸度量在人脸检测和识别、真实感人脸建
本文主要研究了自适应OFDM的关键技术及其在认知无线电系统中的应用。文中首先介绍了OFDM系统的基本原理,分析了OFDM系统的信道估计以及信噪比估计问题;接着研究了OFDM的自适应
P2P技术的产生使得网络上的用户节点之间可以自由相互通信。每个对等用户既可以积极响应其他用户的要求,也可以向网络上的其他用户搜索自己需要的资源或服务,达到了网络计算