基于客户端的自学习垃圾邮件过滤技术的研究与实现

来源 :东南大学 | 被引量 : 0次 | 上传用户:liongliong551
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为互联网的一大应用,电子邮件一直受到人们的青睐,并已成为人们日常生活中通信、交流的重要手段之一。但是近些年来垃圾邮件问题日益严重,中国网民平均每周收到的垃圾邮件数量长期以来超过正常邮件数量。垃圾邮件不仅耗费网络带宽和计算机时空开销,更会对企业的正常运作和用户的正常工作造成严重的干扰。垃圾邮件过滤势在必行。 虽然,垃圾邮件过滤技术可以根据其部署位置的不同分为基于服务器端的垃圾邮件过滤和基于客户端的垃圾邮件过滤,但考虑到不同用户对垃圾邮件的认同度具有差异,且用户设置和使用系统的能力参差不齐,本文认为一个良好的垃圾邮件过滤技术必须具有个性化的特征和自学习的能力,为此提出构建基于客户端的自学习垃圾邮件过滤系统的想法,方便用户能够自如地实施个性化的过滤策略。 个性化的过滤策略是指当用户和垃圾邮件过滤系统对某一封电子邮件的判定结果存在差异时,过滤系统在收到用户的反馈信息后能够自动学习到用户的过滤偏好,适时地调整过滤策略。也就是说,过滤系统具有针对用户反馈的自学习能力。 论文首先介绍了垃圾邮件的定义与类型、起源与历史、产生机理与危害,讨论了反垃圾邮件技术中的基于规则和基于概率统计的垃圾邮件过滤方法,然后对电子邮件相关协议、结构标准、中文分词等邮件预处理技术进行了研究。在此基础上,本文设计并实现了一个基于客户端的自学习垃圾邮件过滤系统。系统由邮件预处理模块、邮件类别生成模块、类别关键词提取模块、邮件判定模块和自学习模块这几部分组成。 其中邮件预处理模块由邮件内容解析子模块、中文分词子模块和无用词过滤子模块三部分组成,该模块将邮件内部的主要信息提取出来,供邮件类别生成模块和邮件判定模块使用。邮件类别生成模块则由相似度计算子模块和邮件类别生成合并子模块组成,该模块将内容相似的两封邮件归入到同一类别中,为后续的类别关键词提取做好准备。类别关键词提取模块使用互信息方法将每一个邮件类别中的一些特征关键词提取出来,为邮件判定模块和自学习模块提供服务。邮件判定模块将经过预处理的新邮件与用户指定的那些邮件类别对应的特征关键词进行比较,判断是否为垃圾邮件。自学习模块提供了类别关键词的选择性加载功能,并针对用户的不同反馈提供了相应的处理方法。本文详细介绍了上述模块及子模块的内部流程及实现算法。实践表明了系统在有用户反馈的情况下呈现了良好的自学习能力。 最后,论文对垃圾邮件的相关过滤技术进行讨论,提出了系统实现中存在的不足和进一步的改进意见,为后续研究工作提供了有意义的参考。
其他文献
近年来,随着Internet及Web技术的发展以及W3C和相关机构对数学表达式在网络上的表示、传输及转换等方面的研究取得重要成果,国内外众多机构开始深入研究和开发基于Web的数学教
随着信息科学技术的快速发展,网络上的各种信息急剧增长,丰富的信息资源虽然使用户更容易获取所需要的知识,但同时也使人们受到垃圾信息和冗余信息的困扰,这些垃圾信息和冗余信息
我们处于一个信息爆炸的时代,互联网上的中文信息在飞速地增长。通过信息抽取技术从浩瀚的中文信息海洋中自动寻找用户所需求的信息则显得至关重要。而命名实体语义关系抽取是
学位
异构机群系统利用工作站和个人计算机进行分布式并行处理,以较低的成本完成大规模、复杂问题的计算处理。相对于单一的并行计算机,异构机群系统具有较高的性价比,并且非常具有发
微阵列技术是近年来分子生物学实验技术的一个突破,利用该技术可以对成千上万个基因的表达进行平行分析。这些基因表达数据通常构成一个数据矩阵,对这些矩阵进行分析和挖掘,
本文结合国土资源部三峡库区专项基金(SXKY4-041)等项目,采用范例推理技术CBR(Case Based Reasoning)结合其他人工智能技术作为边坡稳定性评估的理论基础,针对三峡库区(Three G
当数据在工作流中流动时,执行操作的用户在改变,用户的权限也在改变,这与数据处理的上下文环境相关。采用传统的访问控制技术,如DAC,MAC,则难以做到这一点,若采用RBAC,也需要频繁地更
本文基于面向对象的思想给出了图形系统的各种模型,主要讨论了图形类库,通用图形编辑系统,以及动画制作技术,针对动漫设计中各种基本图元的数据描述的数据结构进行了定义,也对各种
随着多媒体网络应用数据流在Internet中的增加,使Internet的“尽其所能”的服务难以满足新数据流的服务质量的需求,加上单根光纤的通信速率有多个数量级的提高,网络节点(路由器/