论文部分内容阅读
随着因特网的快速发展,电子邮件作为一种快捷、经济的通信方式,给人们工作生活带来了深刻影响。但是同时,大量垃圾邮件开始在网络中蔓延,占据了邮件服务器大量的传输、存储和计算资源,用户往往要花费很多时间去处理无任何价值的垃圾邮件。因此,研究过滤性能更佳的垃圾邮件过滤技术具有重要意义,反垃圾邮件技术已成为影响互联网发展的重要课题之一,也是当前信息处理领域的一个研究热点。
邮件的自动过滤技术主要有基于规则和基于统计概率两种方式。基于概率的朴素贝叶斯(Bayes)算法具有方法简单、运算速度快、分类精确度高等优点,在文本分类中得到广泛应用。但是,在邮件过滤过程中,合法邮件被误判为垃圾邮件将可能给用户带来巨大的损失。同时,朴素贝叶斯算法在对邮件进行分类与过滤时,没有充分考虑到合法邮件与垃圾邮件具有的不同特性,因此用于邮件过滤时有一定的局限性。
本文研究了当前流行邮件分类器的工作原理及其优缺点,分析了传统贝叶斯算法在邮件过滤过程中所存在的局限性。在此基础上,在预处理分词阶段采用二元短路径粗分分词方法进行分词预处理,较好地实现了邮件文本的分词功能。特征提取时,首先进行噪声过滤,去除掉原本无用的干扰特征词,将相对系数引入TFIDF方法中计算权值,据此对特征向量进行评估,实现特征向量空间降维,减小特征项的数量。
在过滤阶段通过对计算步骤调整优化了局部朴素贝叶斯邮件过滤算法,并建立了垃圾邮件过滤器模型,实验结果表明,该模型能在正确分类邮件的同时,减少合法邮件的误判率,在对垃圾邮件进行分类与过滤时具有较好的性能。
基于上述研究算法,以及对电子邮件等协议的研究,本文主要采用JSP技术,以及C++语言开发实现了一个基于改进局部朴素贝叶斯算法、具有反垃圾邮件功能的邮件系统。该系统具有收发、转发邮件、基于贝叶斯算法和黑白名单以及规则的垃圾邮件过滤、支持邮件代理如Outlook等功能。