基于语义的广告图像垃圾邮件过滤技术研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:lwb3344
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子邮件是互联网应用的一个成功典范,已经成为人们日常通信、交流的一种重要手段。近年来,基于邮件内容,并结合机器学习理论、文本分类和信息过滤技术的垃圾邮件过滤器得到了广泛的应用,但这些方法都有一定的局限性,对图像格式的垃圾邮件无能为力。因此,随着图像垃圾邮件数量的日益增长,如何识别和过滤图像垃圾邮件成为IT界及邮件服务提供商迫切需要解决的问题。首先,分析了垃圾邮件过滤问题的研究现状,主要包括垃圾邮件的定义、危害以及当前主流的垃圾邮件过滤技术及其优缺点等;论述了垃圾邮件广告图像过滤中的关键问题,针对广告图像的特点,对图像低层视觉特征提取方法进行了改进,并构建出了广告图像低层多视觉特征样本库。其次,针对图像垃圾邮件的特性,本文在分析垃圾邮件发送行为及邮件内容的基础上,利用垃圾邮件大批量、反复发送及内容高度相似的特点,提出一种基于图像语义特征相似性检测的垃圾邮件图像过滤方法。本方法通过检测邮件图像与垃圾邮件图像的相似度来实现,提取邮件图像的多种低层视觉特征,并将其映射到高层语义特征,形成广告垃圾邮件图像语义特征库;基于语义特征比较待分类邮件图像与广告垃圾邮件图像语义样本的相似度,以此判断该邮件图像是否为广告垃圾邮件图像。最后,将提出的方法应用到垃圾邮件过滤系统中,并进行了实验验证。结果表明,基于图像语义相似性检测的广告垃圾邮件图像过滤方法具有较高的准确率。
其他文献
数据挖掘是从海量数据中挖掘有用知识的一个强有力的工具,可以帮助人们从数据中获取更深层次的有用信息,已经在银行、保险、电信、生物数据分析等领域得到了广泛的应用。随着
优良的头发模拟方法在虚拟人的真实感绘制中起着决定性的因素。但是头发自身的复杂结构以及其在力的作用下的复杂的运动规律给头发的模拟过程带来了很大的障碍,使得模拟方法
随着企事业单位信息化建设的不断升级和各单位间日益紧密的业务协作关系,传统的单独网站建设方式已不能满足网站间互联互通、数据共享的需求,网站群在网站建设中得到了越来越多
构件组装是提高软件开发效率与产品质量的有效途径。目前,构件组装的研究主要集中在软件体系结构与构件组装机制上,对于如何从高层的构件组装模型产生完整的程序代码尚没有系统
学位
电子邮件地址国际化(Email Address Internationalization,EAI)是IETFEAI工作组的研究方向,本文讨论的内容以这项研究为背景。   首先,作者介绍了工作组提出的电子邮件地址国
学位
多路径是现代IP网络的一个基本特征。基于多路径的负载均衡机制能有效地提升网络传输性能。经典的负载均衡机制ECMP易产生哈希冲突,从而导致长流吞吐量下降和短流时延增加等问
随着社会信息化程度的不断提高,社会各行各业需要实施远程视频监控的范围大大增加,由传统的安防监控向管理监控和生产经营监控发展,对远程视频监控系统的要求也日益提高,往往需要
阴影是自然界中一种普遍存在的自然现象,它能够提供场景数据之外的感知信息,因此阴影的实时绘制是真实感技术研究的主要内容之一。本文围绕阴影的实时绘制技术这一主题展开,主要
当前在数据挖掘领域中,数据流聚类分析成为聚类研究中的一个重要方向。基于网格的聚类算法中网格的划分粒度直接影响聚类质量,且不适用于高维数据流聚类。针对上述问题,本文
多主体系统由于其高度的模块化、自主性、智能性,非常适合运行在一个开放的分布式的环境中。属于不同组织的主体间可以通过网络交互合作来完成更为复杂的任务。但是作为一个复