论文部分内容阅读
电子邮件以其方便、快捷、低成本等优点逐渐成为日常生活中主要通信手段之一。但是随之而来的垃圾邮件却给社会造成了很大的危害。因此,研究邮件过滤技术具有重要的意义。
近年来,利用机器学习、文本分类的邮件过滤方法处理垃圾邮件问题,已成为当前研究的热点。但是这类方法对样本计算量较大和对样本库容量依赖性较强。训练集数据量过大和表征数据的特征向量维数过多,会引发“维灾难”和过大的运算量,对于一个有很多训练样本的邮件过滤系统而言,会使得其实用性能大打折扣。因此,本文结合EKNN和 TCM算法思想,提出一种 TCM-EKNN的邮件过滤方法,并且采用主动学习样本选择方法选择较少高质量的训练样本构建邮件分类器从而高效地实现垃圾邮件过滤。实验结果表明:TCM-EKNN获得了良好的过滤效果,从而论证了TCM-EKNN有效性;并且在保证传统的邮件过滤方法同等高准确率前提下,TCM-EKNN采用主动学习方法后,极大地减少了训练样本数量,提高了分类器性能,论证了主动学习方法选择及限制样本规模并保证过滤性能的有效性。
当前主流邮件过滤方法主要通过特征词来实现过滤功能,而汉语中词语的表达方法灵活多变,垃圾邮件发送者很容易通过修改邮件特征词等手段来绕过邮件过滤方法。同时,邮件具有明显的流数据特点,垃圾邮件的特征往往随着时间的推进而迁移,导致邮件过滤方法不能满足不同背景、不同目的和不同时期的过滤需要。而个性化服务能很好的解决这些问题。因此,本文提出了一种基于用户行为的兴趣度计算方法,通过用户对邮件的各种操作,学习用户兴趣,在TCM-EKNN方法对邮件内容过滤的基础上,对用户认为分类错误的邮件进行纠正,使邮件的类别最终判定通过用户兴趣度来实现。
最后,将本文所做的研究工作设计并实现了个性化邮件过滤系统,在校园网环境下对系统进行测试,该系统基本上能够准确地实现对邮件进行过滤。