论文部分内容阅读
利用文本分类技术进行垃圾邮件过滤是近年来反垃圾邮件研究的热点之一。如何构筑合理的反垃圾邮件体系架构、选择适合于垃圾邮件过滤的文本分类算法等问题,有待于进一步研究。本文针对上述问题进行了深入的探讨,并给出一些阶段性的研究结果。
首先,本文提出一种多层次分布式反垃圾邮件体系架构。系统由信息收集层、邮件过滤层和信息服务层等三个层次构成。信息收集层负责搜集信息,学习垃圾邮件知识,并向邮件过滤层传送信息;邮件过滤层利用掌握的信息,尽可能早地阻断垃圾邮件的传播;信息服务层则负责为邮件过滤层提供信息交流和汇总的服务。
其次,通过深入研究和大量实验,本文对已有的文本分类算法进行改进,提出两种适合于邮件过滤的实时性较强的文本分类算法,即改进K近邻算法和混合朴素贝叶斯模型。实验表明,两种分类模型的分类性能和效率比已有的模型都有所提高,其中改进K近邻模型在保持分类性能不下降的同时,显著降低了算法的时间和空间复杂度。混合朴素贝叶斯模型在保持较高分类效率的同时,将分类的性能提高了11.6%。
最后,本文通过对文本分类的线性分类器分析,给出了构造快速线性分类器的基本方法和决定其性能的关键因素,并在此基础上提出基于互信息的线性分类的方法。实验表明该方法是稳定高效的。对于二分分类问题,比已有快速线性分类器达到的最好性能提高了21.1%。在某些数据集上,其性能甚至优于目前已有的最好的线性分类器——线性支持向量机。该结果对邮件过滤系统选用适合的核心分类模块具有较高的应用价值和指导意义。