基于图片特征和分类器融合的垃圾邮件过滤技术研究

来源 :天津理工大学 | 被引量 : 1次 | 上传用户:suyi0911
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前电子邮件获得了广泛应用,与此同时,垃圾邮件却给人们带来了极大的损害。垃圾邮件的新变种不断出现,反垃圾邮件技术面临挑战。如何针对新变种研究新的过滤方法成为该领域的热点。传统的垃圾邮件过滤技术大多是针对文本型垃圾邮件,对层出不穷的图片垃圾邮件束手无策,因此图片垃圾邮件过滤技术研究迫不及待。针对垃圾邮件过滤,特别是图片垃圾邮件过滤,本文主要做了以下工作:(1)在基于内容的过滤技术基础上,针对文本型和图片型垃圾邮件提出一个多种方法相结合的过滤方案。通过D-S合成规则将多个分类器组合,发挥各自优势,从而克服了单分类器失效问题,提高了过滤系统的可靠性和稳定性。为了使组合分类器获得良好的效果,分类算法选择至关重要。为此,本文针对文本型垃圾邮件,融合了最大熵模型和支持向量机(Support Vector Machine,SVM)分类算法,降低由单分类器受影响而引起的误检和漏检风险。(2)本文重点针对图片垃圾邮件,建立了多层过滤体系,融合了基于图片特征的相似度测量和基于后验概率的SVM分类方法。在图片特征提取中,重点分析了两种方法:尺度不变特征变换算法(Scale Invarient Feature Transform,SIFT)、图片底层和高层特征提取技术。通过降低特征向量维数,本文对SIFT算法进行了改进,仿真实验结果表明改进后的方法与基于周长复杂度的噪声检测相结合能够大大减少时间开销,而又不会降低算法性能。此外,在对图片特征进行详细分析的基础上,采用颜色、梯度、元数据等较为稳定的特征作为SVM的输入进行分类。实验结果表明这些特征具有很好的代表性,使得图片分类的准确性有所提高。由于多种分类器的差异性,本文在分析D-S合成规则的基础上,采用改进的规则合成方法。考虑到证据间的冲突性对分类器融合结果的影响,本文使用G c合成规则融合多种分类结果。最后的仿真实验表明Gc合成规则所得决策结果更为合理。
其他文献
社交SNS、新闻等领域的高速发展使得人们愈发的关注在最快的时间内获取实效数据,从中挖掘到有价值的信息,实时搜索因此成为目前信息检索的研究重点。通用搜索引擎拥有海量网
随着多媒体技术的发展和信息化时代的到来,各种各样的图像信息也得到迅速增长,纸质形式的文本图像不再是人们生活工作的主要部分,电子版形式的文本图像已广泛运用于各行各业中。
随着微电子与计算机技术的日益成熟,智能手机正朝着高性能、低功耗的方向发展。与此同时,相应的配套软件更是发展迅速。目前,谷歌的Android系统正以惊人的速度占领着手机市场,并
近年来,在航运中泄漏到海洋与内河河流中的数万吨石油对周边环境造成了极其严重的污染。在海上溢油监测技术领域,国内外已取得了瞩目的成绩。然而,内河流域因其水文环境复杂,
处理器的工艺尺寸逐渐缩小,芯片的集成程度越来越高,处理器的可靠性研究需求趋于急迫。针对软错误对处理器可靠性的影响,需对设计出的处理器进行软错误测试。然而,由于此项测试时
随着移动技术的进步,移动P2P游戏作为新兴的移动应用正逐步进入人们的视线,并呈现出越来越强大的生命力。移动P2P游戏面向小规模移动P2P网络,将移动游戏由传统的单机模式改变为
随着网络技术的不断发展和进步,语义网已被大多数人期许为未来网络的模式。各种语义信息技术的成熟和完善,更是进一步推动了语义网络的发展。同时人们对智能化系统的需求也在
在延迟容忍网络DTN(Delay Tolerant Network)中,节点依靠彼此间的间断或机会性连接进行通信。由于传播时延巨大,而且端到端的连接路径并不一定存在,DTN中的数据传输方式与因特网相
近年来,网络游戏产业高速发展,游戏玩家数量在不断的增加,面对如此庞大数量的玩家,单纯的对服务器硬件进行升级已经不足以满足需求。所以一个优秀的网络游戏服务端架构就显得
随着网络、通信技术的迅猛发展,数据挖掘呈现出海量化、分布式等特点,如何保护数据挖掘过程中的隐私数据和防止敏感信息的泄露已成为数据挖掘和信息安全领域当前面临的重大挑战