论文部分内容阅读
作为互联网的一大应用,电子邮件一直受到人们的青睐,并已成为人们日常生活中通信、交流的重要手段之一。但是近些年来垃圾邮件问题日益严重,中国网民平均每周收到的垃圾邮件数量长期以来超过正常邮件数量。垃圾邮件不仅耗费网络带宽和计算机时空开销,更会对企业的正常运作和用户的正常工作造成严重的干扰。垃圾邮件过滤势在必行。
虽然,垃圾邮件过滤技术可以根据其部署位置的不同分为基于服务器端的垃圾邮件过滤和基于客户端的垃圾邮件过滤,但考虑到不同用户对垃圾邮件的认同度具有差异,且用户设置和使用系统的能力参差不齐,本文认为一个良好的垃圾邮件过滤技术必须具有个性化的特征和自学习的能力,为此提出构建基于客户端的自学习垃圾邮件过滤系统的想法,方便用户能够自如地实施个性化的过滤策略。
个性化的过滤策略是指当用户和垃圾邮件过滤系统对某一封电子邮件的判定结果存在差异时,过滤系统在收到用户的反馈信息后能够自动学习到用户的过滤偏好,适时地调整过滤策略。也就是说,过滤系统具有针对用户反馈的自学习能力。
论文首先介绍了垃圾邮件的定义与类型、起源与历史、产生机理与危害,讨论了反垃圾邮件技术中的基于规则和基于概率统计的垃圾邮件过滤方法,然后对电子邮件相关协议、结构标准、中文分词等邮件预处理技术进行了研究。在此基础上,本文设计并实现了一个基于客户端的自学习垃圾邮件过滤系统。系统由邮件预处理模块、邮件类别生成模块、类别关键词提取模块、邮件判定模块和自学习模块这几部分组成。
其中邮件预处理模块由邮件内容解析子模块、中文分词子模块和无用词过滤子模块三部分组成,该模块将邮件内部的主要信息提取出来,供邮件类别生成模块和邮件判定模块使用。邮件类别生成模块则由相似度计算子模块和邮件类别生成合并子模块组成,该模块将内容相似的两封邮件归入到同一类别中,为后续的类别关键词提取做好准备。类别关键词提取模块使用互信息方法将每一个邮件类别中的一些特征关键词提取出来,为邮件判定模块和自学习模块提供服务。邮件判定模块将经过预处理的新邮件与用户指定的那些邮件类别对应的特征关键词进行比较,判断是否为垃圾邮件。自学习模块提供了类别关键词的选择性加载功能,并针对用户的不同反馈提供了相应的处理方法。本文详细介绍了上述模块及子模块的内部流程及实现算法。实践表明了系统在有用户反馈的情况下呈现了良好的自学习能力。
最后,论文对垃圾邮件的相关过滤技术进行讨论,提出了系统实现中存在的不足和进一步的改进意见,为后续研究工作提供了有意义的参考。