论文部分内容阅读
随着互联网的普及,越来越多的电子邮件从过去单一的文字模式转变为现在的混合图文模式。传统的垃圾邮件过滤方法并不能对其有效分辨,为此人们从提取邮件中的图像特征和文本信息等方面进行了研究,虽取得了一定的成绩,但没有达到理想的效果。目前针对图像垃圾邮件过滤的方法主要有以下缺点:基于图像文本信息并结合传统垃圾邮件进行过滤的方法受图像分辨率和其它干扰因素影响较大,并且执行效率不高;基于图像元数据特征的过滤方法,由于图像文件的元数据信息与图像内容之间没有关联,使得邮件中的图像不具有区分性,因此误判率会较高;基于图像本身特征的过滤方法,该方法通过提取图像特征并结合机器学习算法或其它算法进行分类,虽具备一定的实时性和稳定性,但是单一的图像特征对不同类型图像的过滤性能仍然不太理想。针对上述情况,本文提出基于SIFT算法和卷积神经网络提取图像融合特征,对级联型图像垃圾邮件过滤系统展开研究和设计,主要工作如下:(1)基于SIFT算法提取图像特征,使用K-MEANS算法构建词袋模型并形成词频直方图。使用CIFAR-10数据集对选取的卷积神经网络进行预训练,待网络收敛后,再用SPAM ARCHIVE标准图像库对网络进行训练。网络最终收敛后,将网络最后的分类器层替换为全连接层,构成基于卷积神经网络的特征提取器,全连接层的输出即为卷积神经网络提取的特征。词频直方图和基于卷积神经网络提取的特征做线性组合,获得“SIFT-CNN融合特征”。相比于传统的SIFT特征,“SIFT-CNN融合特征”的计算复杂度较高,但对于图像具有更好的表达能力。(2)基于“SIFT-CNN融合特征”,利用SVM算法对图像进行分类;使用标准图像库测试该方法的分类效果,经过多次实验,最终确定一种分类准确率较高的核函数和惩罚参数;(3)基于小波变换对图像进行二值化,然后通过使用OCR提取图像中的文本信息,基于改进型KNN算法将文本信息与所构建的敏感词库相对比,从而将垃圾邮件进一步的细分为广告类、非法类和其它;相比于一般的KNN算法,改进型KNN算法不仅可以保障算法精度,还可以提高效率。在MATLAB2014A和VS2013的混合编程环境下,使用SPAM ARCHIVE标准图像库对系统进行训练和测试,通过不断优化系统性能,获得了一个较高分类准确率和较快分类速度的级联型过滤系统。本文设计的过滤系统能精确有效地分辨图像垃圾邮件,为以后研究和设计图像垃圾邮件过滤系统提供参考;本文提出的“SIFT-CNN融合特征”为以后研究垃圾图像的特征提供借鉴。