文本分类在垃圾邮件过滤中的应用研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:yvedy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
利用文本分类技术进行垃圾邮件过滤是近年来反垃圾邮件研究的热点之一。如何构筑合理的反垃圾邮件体系架构、选择适合于垃圾邮件过滤的文本分类算法等问题,有待于进一步研究。本文针对上述问题进行了深入的探讨,并给出一些阶段性的研究结果。 首先,本文提出一种多层次分布式反垃圾邮件体系架构。系统由信息收集层、邮件过滤层和信息服务层等三个层次构成。信息收集层负责搜集信息,学习垃圾邮件知识,并向邮件过滤层传送信息;邮件过滤层利用掌握的信息,尽可能早地阻断垃圾邮件的传播;信息服务层则负责为邮件过滤层提供信息交流和汇总的服务。 其次,通过深入研究和大量实验,本文对已有的文本分类算法进行改进,提出两种适合于邮件过滤的实时性较强的文本分类算法,即改进K近邻算法和混合朴素贝叶斯模型。实验表明,两种分类模型的分类性能和效率比已有的模型都有所提高,其中改进K近邻模型在保持分类性能不下降的同时,显著降低了算法的时间和空间复杂度。混合朴素贝叶斯模型在保持较高分类效率的同时,将分类的性能提高了11.6%。 最后,本文通过对文本分类的线性分类器分析,给出了构造快速线性分类器的基本方法和决定其性能的关键因素,并在此基础上提出基于互信息的线性分类的方法。实验表明该方法是稳定高效的。对于二分分类问题,比已有快速线性分类器达到的最好性能提高了21.1%。在某些数据集上,其性能甚至优于目前已有的最好的线性分类器——线性支持向量机。该结果对邮件过滤系统选用适合的核心分类模块具有较高的应用价值和指导意义。
其他文献
经过不到十年的推广应用,网络已深入到了社会生活的各个角落,正发挥着巨大的作用。但是,由于在全球网络中占绝对数量的还是IP网络,其特点就是竞争应用网络带宽,网络提供“尽
图作为一种重要的数据结构,已经在多个领域得到了越来越广泛的应用。例如研究人员在对化合物、社交网络等数据进行分析时,均采用图这种结构来进行建模,得到的是确定图数据。
本文以基于 MIS 与 GIS 结合中的“无缝集成”关键技术的原理和实现进行研究为核心。首先对现有的 GIS 技术与 MIS 技术进行了分析和比较,探讨了实现 MIS 与 GIS“无缝集成”
本文首先阐述了粗集理论的发展及现状,分析了Rough下代数论与信息论的区别,讨论了基于信息熵的属性约简相关概念、定义,并通过条件信息熵作为启发知识设计了决策表的启发式知
网络化、智能化是信息社会发展的必然趋势,机房管理的网络化、智能化必将使机房管理正规化、科学化。本文针对机房特点,设计并实现了一个基于MPEG-4的机房视频监控系统。
IPSec协议是下一代网络安全标准,而作为IPSec协议中的密钥交换协议——IKE协议又对IPSec协议的安全性起着重要作用,密钥交换协议能否正确的实施关系到IPSec协议的安全与否,乃
随着传统因特网发展和无线接入技术的成熟,移动因特网开始进入人们的生活。移动因特网可以实现在人们在任何时候,任何地点都能接入因特网的梦想。大量的移动设备在移动的过程
  首先,研究的是高维布尔型异常数据检测问题。本文通过定义反映数据稀疏程度的覆盖系数,采用搜索其低维子空间的异常模式来检测高维布尔型异常数据,并利用遗传算法来优化搜索
学位
本论文研究了基于Web的GIS的理论与应用,并利用了XML技术和数据库系统。Web-GIS操作概念和应用的主要需求在于设计合理的数据库,测试,数据库构建,GIS系统的整合。开发一个系