基于贝叶斯分类的垃圾邮件过滤系统研究与实现

来源 :西华大学 | 被引量 : 0次 | 上传用户:guipian110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的发展和普及,电子邮件也得到了广泛的应用。电子邮件在给人们带来方便的同时也产生了一个新的问题,即大量垃圾邮件的出现。垃圾邮件作为电子邮件的副产物日益影响着人们的日常生活,因此研究垃圾邮件过滤具有重要意义。本文首先分析了电子邮件及其过滤技术,介绍了贝叶斯原理及其在垃圾邮件过滤中的应用。为了能够有效提取邮件样本集的特征及提高垃圾邮件过滤系统的性能。本文介绍了基于N-Gram的切分算法及语言模型,在其基础上,提出了一种改进的N-Gram切分算法,给出了一种结合N-Gram语言模型的贝叶斯过滤模型。实验结果表明,本文提出的方法有效的提高了垃圾邮件过滤的性能。由于特征选择是基于内容的垃圾邮件过滤的重要过程,它有效的改善过滤效率和精度。本文还进一步分析了特征选择函数IG和CHI应用到垃圾邮件过滤中存在的不足,设计了一种改进的评价函数。而这种评价函数的特征选择方法只度量了特征与类的关系,忽略了特征之间依赖的关系,因此我们进一步用基于互信息的聚类方法来消除特征间冗余。最后本文设计并实现了一种基于贝叶斯分类的垃圾邮件过滤系统原型。
其他文献
This thesis describes the design,implementation and testing of a fullyautonomous and programmable autopilot system for small scaleautonomous unmanned aerial vehi
随着芯片制造技术的发展,单个芯片中可以集成更多的IP(Intellectual property)核,片上系统的总线结构已经不能适应系统芯片的发展,因此一种全新的集成电路体系结构NoC(networks-
Web服务作为一种新型的分布式计算模型,以其自包含、模块化、松散耦合、基于标准、高度可集成能力等优点成为当今工业界和学术界共同关注的焦点。但是,单个Web服务功能有限,
随着集成电路制造技术的进步及市场对功能需求的提升,在SoC中的处理架构也在持续地演进,为了达到更高的处理效能,多处理器片上系统(MPSoC)已成了新一代SoC的主流设计趋势。采用
通信网络的发展经历了从简单到复杂,从集中到分布的过程。近几年数字编码技术的不断提高,促使流媒体技术发展很快,并已经应用在视频点播等领域。为提高网络应用性能,CDN(Cont
近些年来,随着科技的迅速发展,导致数据量的不断增多,这在无形中带来了很多的问题,比如很多数据需要进行分类和整理,单纯的依靠人工去分类这些数据将会产生非常大的工作量,给人们的
信息安全事关国家安全、经济发展,必须采取措施确保信息安全。随着计算机网络和多媒体技术的飞速发展,信息安全已成为当前的重要研究问题。信息隐藏是一种新兴的综合性的信息
计算机信息技术的飞速发展,使得资源的获取和使用也变得更加的快捷方便。但与此同时,信息资源之间的抄袭也变得越来越简单和难以防范。例如在计算机的程序设计类课程中,进行
广西巴马是世界级长寿之乡。人类长寿的奥妙关系如何?这是人们一直非常关注的重要问题。由于各种原因,巴马以长寿作为重要旅游资源的唯一性、独特性、稀有性和惠众性多年来一
近年来,数字视频技术与网络技术的快速发展推动了围绕视频点播的各种流媒体业务的广泛应用。视频点播技术是随着计算机技术和网络通讯技术的发展,综合了计算机技术、通讯技术