基于视觉深度自注意力变换网络的图像情感分类

来源 :西南大学 | 被引量 : 0次 | 上传用户:zhaojiagu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着自媒体时代的来临,越来越多的人通过社交网络表达自己的见解。在社交网络上每时每刻都有无数新的图像信息被发布,这些图像信息承载着发布者的情感状态。在如此庞大的图像资料面前,研究如何从这些图像中获得所需资讯是非常有意义的事情。图像分析也从一开始识别图像中的直观信息,如图像中有什么,进一步的发展到了情感理解层面,即识别图像中所包含的情感信息,也称为图像情感计算。图像情感计算中一个重要的研究内容就是图像情感分类。图像情感分类的应用十分广泛,可以应用在舆情分析、广告推荐以及用户行为需求分析等领域。与一般的图像分类任务相比,情感理解的不确定性以及模糊性使得图像情感分类变得极其不易。目前,图像情感分类研究的主流方法是基于卷积神经网络(Convolutional Neural Network,CNN)来搭建识别模型。由于卷积神经网络通常基于局部区域感知,缺乏整体图像信息的感知能力,而图像情感主要是通过图像整体信息以及局部信息结合共同诱发的,这就使得仅用卷积神经网络无法达到理想的图像分类效果,寻求分类效果更好的图像情感分类方法成为十分重要的任务。通常的图像情感分类任务中,基于分类模型的效果主要是由两部分决定,一是有效的特征提取方法,二是优异的分类器。论文对这两个部分都进行了探讨,将视觉深度自注意力变换网络(Vision Transformer,ViT)用于图像情感分类,分别与两个不同结构的残差网络相结合构建出两个分类网络,分别命名为Res-ViT网络以及DRSN-ViT网络,并在四个分类任务上验证了分类效果。论文的主要研究内容及结论如下:(1)尝试在ViT网络的基础上对情感图像数据集进行分类。深度自注意力变换网络(Transformer)在自然语言处理领域已经是首选体系结构。ViT网络是在Transformer网络基础上改进的专门用在图像领域的网络。ViT网络采用的注意力机制允许它关注图像的不同区域,并在整个图像中整合信息。论文研究了在多分类任务中FI数据集8分类和Emotion Ro I数据集6分类上的表现,分别达到70.65%、60.12%的准确率。在二分类任务中FI数据集2分类和Emotion Ro I数据集2分类上分类效果分别达到89.65%、82.45%。从实验结果来看ViT网络对情感图像数据集分类效果优于常见的深度学习卷积神经网络。(2)基于ViT网络构建了Res-ViT图像情感分类识别模型。提出了一个加入残差缩放因子的卷积神经网络残差模块与ViT网络结合得到的Res-ViT网络。残差网络的部分用于提取图像的深度特征,将提取到的特征输入到ViT网络进行分类。提出的网络既利用了卷积神经网络的局部特征提取优势又结合ViT网络关注到了图像整体信息。Res-ViT网络识别模型在FI数据集8分类、Emotion Ro I数据集6分类、FI数据集2分类和Emotion Ro I数据集2分类共四个分类任务上对网络的分类性能进行微调训练和测试,测试结果分别为73.40%、61.45%、91.50%和85.25%,比当前数据集分类效果最优的卷积神经网络分类方法分别提升3.33%、0.98%、3.99%、2.31%。并且相比于原本的ViT网络准确率都有所提升。(3)提出了DRSN-ViT图像情感分类识别模型。Res-ViT网络中使用残差模块中阈值是人为调节的,与上述网络不同的是,使用了具有软阈值化的深度残差收缩网络(Deep Residual Shrinkage Network,DRSN)与ViT网络组合,最终得到了DRSN-ViT网络。软阈值功能所需阈值由一个小网络自动设定,避免手动设定的限制,可以为不同的图像类别生成特定的阈值集合,使得网络提取到的深层特征更有助于图像分类。首先搭建深度残差收缩网络用于图像深度特征提取,再将提取到的特征输入ViT网络中进行分类。在FI数据集8分类、Emotion Ro I数据集6分类、FI数据集2分类和Emotion Ro I数据集2分类共四个分类任务上对网络的分类性能进行测试,结果分别为74.58%、62.50%、92.24%和86.73%,分别比对应的基于卷积神经网络的最佳分类方法准确率提升了4.51%、2.03%、4.73%和3.79%。并且相比于Res-ViT网络性能有所提高。综上所述,论文对ViT网络在图像情感分类领域进行了尝试,并达到了比较好的分类效果。所提出的两种基于卷积神经网络的深度特征提取方法,与ViT网络结合后提升了图像情感数据集的分类准确率。
其他文献
随着无线通信基础设施和服务需求的不断增长,通信业务也逐渐从单一化的语音形式转变为多样化的图像、数据、视频等多种形式。然而,有限的射频(Radio Frequency,RF)频谱资源很难满足人们对带宽日益增长的需求。另一方面,自由空间光(Free Space Optical,FSO)通信作为短距离高速率传输数据的有效手段获得了广泛的研究关注,因为与传统的RF通信相比,它具有高带宽、大容量、高安全性、
学位
自适应滤波器因其能够根据不同类型的输入信号自适应调整系统参数,输出期望的滤波结果而被广泛应用在自动控制、生物医学检测、雷达系统等实际工程领域。从实际应用方面出发,系统所处的噪声环境并不满足单一的高斯统计特性,而是非高斯噪声环境居多。所以在算法设计过程中仍主要以非高斯噪声为背景建模。基于变量之间的相似性度量方法为确定数据系统与学习模型之间的关系提供基础。二阶误差准则的相似性度量在应对高斯环境时具有良
学位
神经网络在诸多应用领域展现出了优异的性能,这很大程度上依赖过度参数化的模型结构,以及各类数据增强技术提供的数据量保证。在此发展趋势下,神经网络的损失表面愈加复杂,仅通过最小化训练损失已经无法保证模型的泛化性能。对神经网络的泛化误差与收敛点特性展开研究,设计更高效的性能提升算法尤为重要。统计学习理论通过假设空间与样本数量构建泛化误差上界,虽然无法完整解释神经网络的泛化性能,但此类理论具备重要的指导意
学位
随着移动互联网时代的来临,社交媒体、电子商务等新兴平台的不断涌现,随之产生的各式数据呈几何指数上升。不仅如此,监控摄像头网络、车联网系统、智慧医疗影像等技术的发展也产生了海量的数据。这些数据不仅具有极高的商业价值,同时也是涉及国防安全,国计民生的重要资源。如何运用好现代信息技术从这些海量的数据中搜索所需的数据是一个极具价值且有挑战的工作。基于哈希学习的图像检索方法具有储存性能优、查询耗内存少、速度
学位
在实际生活中总存在各种不确定性,复杂的网络由于耦合度高,更容易受到随机扰动的影响。而这种随机干扰会对系统稳定性产生不可忽视的影响,因此对于随机系统稳定性的研究引起各国学者的广泛关注。而对于此类系统,脉冲控制是非常有效的方法和手段。脉冲能够使系统状态发生瞬时的改变,使得系统偏离原有的运动轨迹。学者利用这一特性,通过施加合适的脉冲,使得系统状态趋于期望的运动轨迹。除此之外,脉冲系统还有低成本、高效率、
学位
近代信息技术的爆炸式发展以及数据量的激增导致传统的集中式优化理论和方法愈加难以适用于如今大规模、分布式的数据架构。因此,去中心化、分布式理念的提倡,使得越来越多的学者们关注于分布式优化领域并提出了许多优异且经典的分布式算法。分布式优化方法同传统集中式优化方法最大的不同就在于其将一个大规模优化问题分为众多子问题进行求解,每一个子问题依托于一个实际的智能节点,节点之间只需要通过和邻居节点的交互即可求解
学位
在深圳地区引种狭叶薰衣草、阔叶薰衣草、大甜薰衣草、西班牙薰衣草、羽叶薰衣草、齿叶薰衣草等6种薰衣草,对其栽培适应性、生物学性状和繁殖特性等方面进行分析,以探讨6种薰衣草在深圳进行栽培应用的可能性。结果证实:薰衣草在深圳地区室外栽培无法顺利越夏,实现多年生。但羽叶薰衣草可作为一年生草本植物在深圳地区进行观赏种植,阔叶薰衣草作为一年生植物栽培也可用于观赏和干花制作,齿叶薰衣草和西班牙薰衣草则具有盆栽造
期刊
为及时发现电能计量异常,减少电力企业和用户损失,提出基于计量自动化系统的电能计量异常诊断技术。利用面向服务的体系架构设计对应计量自动化系统,将系统分为数据采集、信息交换、业务处理等层次,建立整体架构;设置系统档案管理、预警管理、实时抄表等功能;在系统中引入均值聚类算法,根据采集的大量历史计量信息,建立时间序列重构计量信息,填补缺失数据;使用相对邻域信息熵算法,结合目标样本权重,计算异常数据在全域中
期刊
阅读是高中英语教学中的重要内容,也是学生今后生活和工作不可或缺的一部分。就目前的英语阅读教学来看,大部分老师的教学模式单一,教学内容仅局限于教科书,阅读课堂也以老师为中心,学生缺乏自我展示、独立阅读、讨论、辩论、合作学习、表达自己观点的机会。针对目前高中英语阅读教学和学习的现状,作者将“文学圈”这一新颖的教学模式引入到高中英语阅读课堂当中。本文作者以合作学习理论、克拉申输入假说理论、建构主义理论和
学位
机器嗅觉已被广泛用于气体的识别与检测。机器嗅觉系统利用气体传感器获取气体数据,经过预处理和特征提取的气体样本被分类算法识别。气体数据的特征提取和识别算法对气体的识别起着重要作用,通常气体样本的稳态响应等特征会被提取出来,如果特征维数过多,还需对特征做降维处理,然后用机器学习算法对这些气体样本的特征进行识别和分类。一些机器学习算法已经在气体识别领域取得了很好的效果,而神经网络模型和传统的机器学习算法
学位