基于主动TCM-EKNN的个性化邮件过滤技术研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:yangchuan2ll
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子邮件以其方便、快捷、低成本等优点逐渐成为日常生活中主要通信手段之一。但是随之而来的垃圾邮件却给社会造成了很大的危害。因此,研究邮件过滤技术具有重要的意义。   近年来,利用机器学习、文本分类的邮件过滤方法处理垃圾邮件问题,已成为当前研究的热点。但是这类方法对样本计算量较大和对样本库容量依赖性较强。训练集数据量过大和表征数据的特征向量维数过多,会引发“维灾难”和过大的运算量,对于一个有很多训练样本的邮件过滤系统而言,会使得其实用性能大打折扣。因此,本文结合EKNN和 TCM算法思想,提出一种 TCM-EKNN的邮件过滤方法,并且采用主动学习样本选择方法选择较少高质量的训练样本构建邮件分类器从而高效地实现垃圾邮件过滤。实验结果表明:TCM-EKNN获得了良好的过滤效果,从而论证了TCM-EKNN有效性;并且在保证传统的邮件过滤方法同等高准确率前提下,TCM-EKNN采用主动学习方法后,极大地减少了训练样本数量,提高了分类器性能,论证了主动学习方法选择及限制样本规模并保证过滤性能的有效性。   当前主流邮件过滤方法主要通过特征词来实现过滤功能,而汉语中词语的表达方法灵活多变,垃圾邮件发送者很容易通过修改邮件特征词等手段来绕过邮件过滤方法。同时,邮件具有明显的流数据特点,垃圾邮件的特征往往随着时间的推进而迁移,导致邮件过滤方法不能满足不同背景、不同目的和不同时期的过滤需要。而个性化服务能很好的解决这些问题。因此,本文提出了一种基于用户行为的兴趣度计算方法,通过用户对邮件的各种操作,学习用户兴趣,在TCM-EKNN方法对邮件内容过滤的基础上,对用户认为分类错误的邮件进行纠正,使邮件的类别最终判定通过用户兴趣度来实现。   最后,将本文所做的研究工作设计并实现了个性化邮件过滤系统,在校园网环境下对系统进行测试,该系统基本上能够准确地实现对邮件进行过滤。  
其他文献
在形式语言和自动机理论[1]中,有限自动机和它接收的正则语言已经应用到各个方面,但是有限自动机只能接收正则语言的限制,使得有必要把传统的有限自动机进行推广,用半环[2]-[
在一些基于社交网络的电商平台上,例如ThisNext和Epinions,一个买家可以在社交网络中同其他买家分享他/她的商品评价。如果一个买家提供了高质量的评价信息,他/她就能够影响大量
随着我国数字家庭和数字电视产业的快速发展,数字图像/视频显示呈现大尺寸、高清化趋势,大量的标清电视信号需要转换为高清数字信号,因而由低分辨率图像获取高分辨率图像的高
学位
本文主要研究了视频图像序列光流的运动估计及匹配应用问题,它是计算机智能化的一个基本问题,也是动态图像分析的核心问题。图像系列光流运动估计是快速而准确地检测图像系列帧
聚类是数据挖掘的重要分支之一。近年来随着数据挖掘研究的深入,涌现出大量新的聚类算法,每种聚类算法都是针对某一应用领域,也各有其优缺点。在众多的聚类算法中,模糊C-均值
随着信息技术的飞速发展,现实世界中的大量空间数据被存储在空间数据库中,为了找出空间数据库中数据间的相互关系及其规律,提出了空间挖掘技术。空间聚类是空间数据挖掘的重要方
在信息社会中,随着移动通信技术的发展和移动终端的日益普及,以及软、硬件性能的不断提升,使得移动应用的领域不断扩张,而人们在充分使用移动应用所带来的便利的同时,对应用
随着计算机技术与网络技术的发展和普及,为了实现远程数据传输、远程监控等功能,网络化已成为新一代嵌入式系统发展的一个重要趋势。具有远程监控功能的心电仪应运而生。本文
学位
文本分类的一般过程是首先对训练文本进行预处理,把抽取出来的特征用特征选择算法进行过滤,得到一个特征空间,然后对特征空间用分类算法学习获得一个分类器,最后分类器实现对测试