论文部分内容阅读
随着互联网的普及,电子邮件作为一种方便、快捷、费用低廉的通讯方式得到了极大的普及。电子邮件在给人们工作生活带来巨大方便的同时,随之而来的垃圾邮件泛滥也使整个网络不堪重负,占用网络带宽,侵占收件人邮箱空间,耗费收件人的时间,数以万计的垃圾邮件袭击目标网站,造成被攻击网站网路堵塞,最终瘫痪的案例也时有发生。垃圾邮件泛滥降低了整个网络的运行效率,也对现实社会造成了严重危害。如何防范和过滤垃圾邮件引起了人们的极大关注,也是网络安全研究领域的热点问题之一本文针对垃圾邮件的过滤问题进行学习、研究和探讨,提出用粒子群优化的支持向量机(PSO-SVM)进行中文垃圾邮件过滤,并通过与其它如朴素贝叶斯(NB)、支持向量机(SVM)和遗传优化的支持向量机(GA-SVM)等算法进行理论上的横向比较,证明了PSO-SVM较其它常用的垃圾邮件过滤算法更适合进行中文垃圾邮件过滤,实验结果也证明了这一点。本文的内容大致可以分为四部分。首先介绍了垃圾邮件过滤研究的背景、意义、国内外研究现状以及本文的主要研究工作,并给出了各个章节的内容安排。其次,对电子邮件的基本知识进行简要的介绍,主要包括电子邮件的工作原理,电子邮件传输过程中所用到的主要协议,垃圾邮件的定义及其分类,中文电子邮件的预处理过程等。第三部分给出了三种常见的中文垃圾邮件过滤技术,包括基于IP层过滤、基于SMTP协议的过滤和基于内容的过滤。本文主要进行基于内容过滤技术的研究,给出了四种常用的基于内容垃圾邮件过滤算法。提出用PSO-SVM进行中文垃圾邮件的过滤,并且通过理论分析得出结论:PSO-SVM与NB、SVM、GA-SVM等常用的垃圾邮件过滤算法相比能够更快更准确的找到垃圾邮件。最后是本文的实验部分,给出了实验结果及其性能分析。通过比较实验结果可知:在相同的实验条件下,SVM在进行中文垃圾邮件过滤时其过滤性能指标(包括召回率、正确率、准确率和F值)较NB有所提升。经过参数优化的SVM过滤性能明显比未经参数优化的SVM有所提升。PSO-SVM的过滤性能比NB、SVM和GA-SVM等过滤算法有较大的提升,而且用粒子群来优化SVM的参数比遗传算法优化参数所需的进化代数要少,而其优化结果却更好。