级联型图像垃圾邮件过滤系统设计

来源 :福州大学 | 被引量 : 0次 | 上传用户:dr_rush
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及,越来越多的电子邮件从过去单一的文字模式转变为现在的混合图文模式。传统的垃圾邮件过滤方法并不能对其有效分辨,为此人们从提取邮件中的图像特征和文本信息等方面进行了研究,虽取得了一定的成绩,但没有达到理想的效果。目前针对图像垃圾邮件过滤的方法主要有以下缺点:基于图像文本信息并结合传统垃圾邮件进行过滤的方法受图像分辨率和其它干扰因素影响较大,并且执行效率不高;基于图像元数据特征的过滤方法,由于图像文件的元数据信息与图像内容之间没有关联,使得邮件中的图像不具有区分性,因此误判率会较高;基于图像本身特征的过滤方法,该方法通过提取图像特征并结合机器学习算法或其它算法进行分类,虽具备一定的实时性和稳定性,但是单一的图像特征对不同类型图像的过滤性能仍然不太理想。针对上述情况,本文提出基于SIFT算法和卷积神经网络提取图像融合特征,对级联型图像垃圾邮件过滤系统展开研究和设计,主要工作如下:(1)基于SIFT算法提取图像特征,使用K-MEANS算法构建词袋模型并形成词频直方图。使用CIFAR-10数据集对选取的卷积神经网络进行预训练,待网络收敛后,再用SPAM ARCHIVE标准图像库对网络进行训练。网络最终收敛后,将网络最后的分类器层替换为全连接层,构成基于卷积神经网络的特征提取器,全连接层的输出即为卷积神经网络提取的特征。词频直方图和基于卷积神经网络提取的特征做线性组合,获得“SIFT-CNN融合特征”。相比于传统的SIFT特征,“SIFT-CNN融合特征”的计算复杂度较高,但对于图像具有更好的表达能力。(2)基于“SIFT-CNN融合特征”,利用SVM算法对图像进行分类;使用标准图像库测试该方法的分类效果,经过多次实验,最终确定一种分类准确率较高的核函数和惩罚参数;(3)基于小波变换对图像进行二值化,然后通过使用OCR提取图像中的文本信息,基于改进型KNN算法将文本信息与所构建的敏感词库相对比,从而将垃圾邮件进一步的细分为广告类、非法类和其它;相比于一般的KNN算法,改进型KNN算法不仅可以保障算法精度,还可以提高效率。在MATLAB2014A和VS2013的混合编程环境下,使用SPAM ARCHIVE标准图像库对系统进行训练和测试,通过不断优化系统性能,获得了一个较高分类准确率和较快分类速度的级联型过滤系统。本文设计的过滤系统能精确有效地分辨图像垃圾邮件,为以后研究和设计图像垃圾邮件过滤系统提供参考;本文提出的“SIFT-CNN融合特征”为以后研究垃圾图像的特征提供借鉴。
其他文献
目前关于非接触电能传输系统最大功率跟踪的研究存在着较少针对三阶补偿拓扑结构、跟踪过程容易陷入局部最优、最优点附近容易发生振荡及无法兼顾跟踪速度与精度等问题。针对以上问题,本文以基于轴式松耦合变压器的电磁感应式非接触电能传输系统为研究对象,构建三阶补偿拓扑结构并进行理论研究,提出一种易实现、变步长、高精度、防振荡的改进扰动观察法来对传输系统进行最大功率跟踪。首先,通过构建三阶补偿及松耦合变压器数学模
基于钴基巨磁阻抗(Giant Magneto Impedance,GMI)效应的磁传感器因其灵敏度高、响应速度快、功耗低、体积小、激励方式简单等优点,在地质资源勘探、地磁导航定位、无损探伤检
随着计算机技术的发展与电子办公的普及,大部分企业已经从以往的纸质办公转为了现在的电子化办公,纸质文档因保存不便、查找困难也逐渐退出使用,除了少数重要文件外,日常办公
随着移动互联网的高速发展,人们对智能设备的使用场景已经越来越多,其中以智能手机为主流的移动设备不仅为人们的生活添加了不少的娱乐性,也使人们在社交、出行、购物和阅读
随着IT(信息技术)的高速发展,企业的各种业务流程对IT的依赖程度越来越高,IT的应用也成为公司成功的关键。H公司作为国内知名的IT设备制造商,其服务部门的主要职责是为客户提
受居高不下的能源成本和日趋严格的环境标准的影响,高能耗和高污染成为制约云数据中心发展的至关重要因素。本文基于虚拟机分组思想,依据系统负载,动态调整部分虚拟机的工作
场景分类是计算机视觉场景理解中的经典研究课题,其研究成果可以直接应对大规模的场景照片分类。本课题着眼于基于中层特征的场景分类,中层特征相比于底层特征,更容易上升到
网络系统的安全性日益成为互联网中广大用户关注的热门话题之一。对于通信运营商来说,海量的客户信息令电信运营商通过分析用户数据而获取利益。但在提高服务效率及收入的同
近年来,随着硬件技术的进步和计算机视觉理论的发展,为了增强用户的沉浸感、交互性及体验,全景漫游技术被广泛应用于人们的生产和生活当中。全景漫游技术是指在用户的走动路
计算机受到硬件物理因素的限制,数据存储技术已无法满足数据量不断增长的需求。DNA序列具有密度大、高并行等特点,因此有人提出将计算机的基本部件逐渐过渡到分子水平。针对D