论文部分内容阅读
近些年来,垃圾邮件制造者为了躲避基于邮件文本的传统垃圾邮件过滤系统的拦截,将特定宣传目的的垃圾信息嵌入到图片中,并通过邮件的形式群发给个人和企业用户。这类邮件是一种新型的垃圾邮件,统称为图像型垃圾邮件(Image Spam)。同文本型垃圾邮件相比,图像型垃圾邮件通常含有大量的垃圾信息,如具有特定目的政治宣传信息、宗教宣传和广告推销信息等,这给个人和企业用户带来较大困扰,给正常的工作与生活带来不利的影响。图像型垃圾邮件的标识与过滤已经成为了信息安全领域的研究热点,对图像型垃圾邮件过滤技术的研究具有重要的现实意义。现有的基于邮件文本的传统垃圾邮件过滤系统不能有效的过滤图像型垃圾邮件,因此需要一个系统去高效和准确地过滤图像型垃圾邮件,来完善和补充现有的垃圾邮件过滤系统。本文的研究对象是图像型垃圾邮件中的图像,下文简称为垃圾图像。本文在分析和归纳了垃圾图像的典型特征的基础上,设计了一个递进式的、基于级联方法的并带有反馈机制的双层过滤系统,第一层采用基于垃圾图像近似匹配的过滤方法,第二层采用深度学习中的卷积神经网络方法进行图像分类,实现垃圾图像的过滤。本文的主要工作如下:首先,根据垃圾图像大多是基于模板生产和近似复制的特点,在过滤系统的第一层设计并实现了基于近似匹配的过滤模块。在这一层关键是应用合适的图像匹配算法,本文设计了一系列的模拟垃圾图像变化的过滤实验对图像局部特征描述算法进行测试,基于时间与精确度考虑,最后使用ORB算法作为该层近似匹配算法。其次,基于卷积神经网络对图像的强大的处理能力,在过滤系统的第二层设计并实现了基于深度学习的过滤模块。本文设计了卷积神经网络与支持向量机的级联模型,应用实际的垃圾图像数据库,对模型进行训练并得到分类性能良好的分类模型。最后,本文在详细分析垃圾邮件过滤系统的整体架构基础上,将近似匹配过滤模块与深度学习过滤模型进行级联并集成在现有的垃圾邮件过滤系统中。通过三个对比实验,结果表明,基于级联方法的图像型垃圾邮件过滤模块能有效提高现有垃圾邮件过滤系统对垃圾图像的处理能力,垃圾图像过滤模块可以作为垃圾邮件过滤系统的一个良好补充,系统有一定的工程应用价值。