基于免疫原理和支持向量机的文本型垃圾邮件检测算法研究与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:loveliness900619
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
垃圾邮件的急剧增加已经对人们日常的电子通讯造成了越来越严重的危害。垃圾邮件不仅耗费掉宝贵的网络带宽和存储空间,并且当它们作为病毒和恶意代码的传播载体时,也对网络安全构成了巨大的威胁和危害。 首先,受自然免疫原理的启发,本文提出了一种基于免疫浓度的邮件特征构造方法。利用‘自己’和‘异己’基因库分别生成‘自己’和‘异己’浓度特征,并随后采用‘自己’和‘异己’浓度特征来构造描述邮件特征的二维特征向量。 其次,与传统的基于统计的方法不同,本文通过对代价函数的动态优化,建立了求解最优浓度特征向量的优化系统框架。通过使用一种基于免疫克隆技术的新型粒子群算法-CPSO,对代价函数动态优化并最终求得最优的浓度特征。仅有两维的免疫浓度特征向量极大的简化了分类器的设计和实现,同时也保证了泛化性能。 再次,在分类器设计方面,本文提出了基于EM-Update技术和滑动窗口技术的SVM动态分类器算法。并给出了具有不同分类准则的八种实现方式。通过使用上述技术我们提出的算法可以在不间断的方式下动态的追踪邮件内容和用户兴趣的变化。 最后,在标准数据集PU1和Ling上,我们对基于免疫浓度的特征构造方法和SVM动态分类器算法进行了大量的实验,并且与现有方法进行了全面的比较。实验结果表明本文所提出的算法在正确率、精确率、召回率和丢失率这四项指标上,取得了比现有各种方法都要出色的性能。
其他文献
本文研究了三角网格模型的逆向细分问题。由于密集三角网格模型数据量很大,使得其在很多应用中受到限制,例如网络方面的应用中,不适宜传输密集三角网格模型,所以有必要研究密集三
领域工程是软件复用研究的一个重要方向。领域工程侧重在一个领域内系统性的、有计划的复用。其基本思想是通过领域分析,领域设计,领域实现等阶段开发出领域核心资产库;在开发应
软件质量是软件使用者最为关心的问题之一,如何控制软件质量,开发出高质量的软件成为软件可靠性研究领域的热点。有效的软件质量预测可以在软件生命过程早期指导建立高效可靠的
数据挖掘是近年来随数据库和人工智能发展起来的新技术,其目的是从大量的、不完全的、有噪声的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知
随着互联网的快速发展,用户对高质量视频的需求正不断增长,视频通信业务正经历着持续的发展。然而由于信道拥塞、延迟等原因造成的比特错误和分组丢失现象,视频流在传输过程
随着我国教育信息化建设的不断推进,数字化教育资源库的发展同益成熟,积累了大量知识丰富的教学资源。这些资源基本上采用了基于学科、年级、知识点等组织方式,提供基于“关键字
互联网是人类科技成果中最耀眼的明珠之一,对人类社会产生着深刻、全面的影响。由于互联网上不同数据源对客观世界的相同实体提供的观察值经常冲突,一致性差,人们先要进行数据融
入侵检测是网络安全体系中非常重要的一环,对网络的整体安全起了巨大的作用。作为一种积极主动的安全防护技术,入侵检测系统能对内部攻击、外部攻击、误操作和非授权访问等进
随着社会的快速发展,地图的自动标注就显得尤为重要。实际上,如何利用计算机进行地图标注自动配置,提高地图生产效率,已经成为影响和制约GIS应用和发展的一个迫切需要解决的
随着数字产品和互联网技术的发展,多媒体信息迅速膨胀,越来越多的数字图像被产生、传输和利用。图像作为一种内容丰富、表现直观、表达形式多样化的数字媒体形式越来越受到人们