基于支持向量机的垃圾邮件过滤模型研究

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:shinobu1314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着因特网的迅猛发展,电子邮件成为了现代通信的主要手段。但是同时,许多垃圾邮件也在网络中蔓延,给广大用户带来了大量的麻烦。因此如何能够有效地防治垃圾邮件是一个有重要意义的现实问题。本文研究了大量国内外最新反垃圾邮件文献和数据,对己有的垃圾邮件过滤技术做出分析、总结和展望。垃圾邮件过滤技术是反垃圾邮件的重要手段,目前主要有基于IP地址的垃圾邮件过滤技术、基于规则的垃圾邮件过滤技术和基于内容的垃圾邮件过滤技术。本文主要研究基于内容的垃圾邮件过滤技术。基于内容的垃圾邮件过滤技术是通过分析电子邮件的内容,来过滤垃圾邮件的一种技术。基于内容的垃圾邮件过滤本质上是文本分类问题,就是要将电子邮件经过预处理提取出邮件正文的文本内容,利用文本分类方法识别垃圾邮件的过程。本文对各种文本分类技术进行了深入调查研究,重点研究了当前流行的支持向量机理论、在文本分类中的重要应用以及当今利用支持向量机进行垃圾邮件处理的最新进展和技术实践。本文利用文本分类的方法处理当前流行的HTML类垃圾邮件。本文对HTML类电子邮件的预处理方法进行了深入的研究。对邮件的预处理,本文研究了文本解析和噪声去除技术,以及实用的中文分词技术、Lucene和GATE工具。提出了基于相似度曲线的特征提取策略。本文设计并实现了基于支持向量机的垃圾邮件过滤系统。采用正向最大匹配方法实现了中文分词,采用基于相似度曲线的特征提取策略和考虑位置因素的权重计算公式,采用支持向量机模型和LIBSVM工具包实现了对电子邮件的分类。通过对系统测试,实验表明采用支持向量机用于垃圾邮件过滤是实现垃圾邮件过滤的有效方法之一。
其他文献
随着计算机应用的不断深入,人们希望计算机能够模拟人类的各种活动,从而有效地协助人类的生产和生活。计算机视觉是完成这一目标的重要任务之一,它的目的是模仿人眼对外部世
集中供热是目前我国北方地区冬季供热的主要形式,经过十几年的发展,现已颇具规模。与之相比,集中供热监控系统的研究与应用起步较晚,在实际应用中还存在一些问题和不足,主要体现在
钻削加工是最复杂的机械加工方法之一。钻削加工参数的确定受机床、刀具、工件材料、加工质量、产品的允许生产时间、生产成本等诸多因素的影响,如果采用常规的工艺设计方法,不
专家系统是-个由存放专门领域知识的知识库,以及-个能选择和运用知识的推理机组成的计算机系统,其核心是知识。但是,从领域专家获取的知识具有不确定性、不精确性和冗余性,如何得
随着网络技术与多媒体技术的飞速发展,互联网已成为传播各种知识和信息的重要途径,但随之而来的盗版问题和版权纷争已成为一个迫切需要解决的社会问题。数字水印技术目前被公
当今社会,软件与人们的联系越来越密切,软件质量的重要性已不言而喻。软件发生失效后,如何自动调试程序是一个非常有意义的研究课题。虽然程序自动调试这一研究已有很多经验可以
乒乓球运动是国人引以为荣的运动项目,我国的乒乓球运动员在各种赛事上为祖国争得荣耀。球拍性能的好坏在很大程度上可以影响到一个选手的应战水平,所以乒乓球运动员对球拍性
随着互联网技术的发展,计算机木马的泛滥,给网络中信息的安全带来不容忽视的问题,研究如何防止木马窃取主机上的机密信息具有很深远的意义。 在研究Windows木马的基本特征以
科学技术研究在科研单位建设和发展中占有重要的位置。科学技术研究活动信息需要及时为科研管理者、科研人员、科研成果应用者等各类人员掌握和了解,以便及时做出科学的决策。
随着计算机技术的飞速发展,信息系统对行业支撑平台的需求日益迫切,面向业务以及集成应用成为中间件技术发展的一个新的趋势。面向业务的中间件在这样的背景下产生和发展起来