【摘 要】
:
心理学研究表明图像刺激会唤起人类的不同情感响应,图像情感分类任务旨在运用机器学习模型自动预测观测者看到图像时的情感反映,构建图像情感自动预测模型在社交网络、互动广告推广等场景中具有重要的应用价值。现有研究表明相比于整幅图像,图像的某些局部区域会更易引起人类情感响应,而注意力机制则可以有效学习图像中与任务关联的关键区域。为此,本论文提出了联合视觉显著性的图像情感分类网络模型。具体工作包括两个方面:(
论文部分内容阅读
心理学研究表明图像刺激会唤起人类的不同情感响应,图像情感分类任务旨在运用机器学习模型自动预测观测者看到图像时的情感反映,构建图像情感自动预测模型在社交网络、互动广告推广等场景中具有重要的应用价值。现有研究表明相比于整幅图像,图像的某些局部区域会更易引起人类情感响应,而注意力机制则可以有效学习图像中与任务关联的关键区域。为此,本论文提出了联合视觉显著性的图像情感分类网络模型。具体工作包括两个方面:(1)基于多尺度注意力门控网络的视觉显著性预测:目前基于深度学习的显著性预测模型往往只强调高级语义特征,然而高级语义特征缺乏精细的空间信息。理想情况下,显著性预测模型应该同时包括空间和语义特征。本文提出了一种带有多尺度注意力门控模块的深度网络模型,用于视觉显著性预测。该网络采用高分辨率网络(HRNet)作为主干来提取多尺度语义特征,多尺度注意力门控模块以分层方式自适应融合这些多尺度特征。此模块根据高级语义特征计算空间注意图,然后通过门控操作将其与低级空间特征融合。通过分层门控融合,可以在最佳尺度上实现最终显著性预测。在三个基准数据集上的大量实验分析证明了该方法的优越性能。(2)结合显著性区域的图像情感分类网络模型:现有研究发现图像的某些局部区域会更易引起人类情感响应,而显著性预测则可以提供有效的局部信息。为此,本论文提出了结合显著性区域的图像情感分类网络模型。该网络包含有显著性通路和情感分类通路,显著性通路预测图像中能够引起观看者情感响应的显著区域,情感分类通路提取图像的全局深度特征,并通过残差注意力融合方法突出分类通路中的显著特征,最后经由全连接层输出图像情感类别,进而实现端对端的图像情感分类。实验结果验证了本文模型的有效性,在提高图像情感预测准确率的同时预测的显著性区域也能够很好匹配人工标注的情感区域。
其他文献
视觉目标跟踪(Visual Object Tracking)旨在对视频任意目标进行轨迹追踪,是计算机视觉领域中基础研究方向。目标跟踪技术在自动驾驶、机器视觉、智能监控、军事国防等领域得到了广泛应用。深度学习技术的发展大幅提高了目标跟踪算法的性能,但在应对相似目标干扰、非刚性形变、尺度变化剧烈挑战时,依然存在鲁棒性差、准确性低的难题,无法满足实际应用场景的需求。本文基于深度学习技术,提出两种基于多任
自动调制分类(Automatic Modulation Classification,AMC)是信号解调前一个复杂且重要的技术,它在军事领域和民用领域都有广泛的应用。近年来,由于机器学习算法的引入,使得AMC技术备受关注。基于机器学习的AMC算法相比于传统算法有更高的识别精度和鲁棒性。本文深入研究并做了以下几方面的工作:1.针对复杂信道情况下,由于调制信号受噪声干扰导致识别准确率不高的问题,提出基
正确判断脑部神经胶质瘤基因型是突变还是野生类型,将有助于医生做出正确的预后治疗。针对活体组织检查会对患者造成一定的伤害、人工观察核磁共振图像准确率低的情况,本文借助计算机辅助的方式对神经胶质瘤进行判断。本文以神经胶质瘤分型为目的,多序列核磁共振图像为数据基础,深度学习为方法,从预处理到肿瘤分型分别提出了不同的深度学习网络结构。本文的创新性工作包括以下内容:(1)针对预处理时,3D Slicer等软
第五代(The Fifth Generation,5G)通信系统采用更先进的通信技术对5G信道建模提出了更高的要求。在无线信道建模的研究领域中,最大的挑战是建立有效且准确的信道模型,能够模拟影响无线通信系统性能分析的所有传播特性。车对车(Vehicle-to-Vehicle,V2V)信道建模作为5G信道建模研究的热点之一,越来越受到研究人员的关注。在V2V通信场景中,发送端(Transmitter
随着物联网的迅速发展,射频能量采集技术的应用范围也逐步扩大。作为射频能量采集系统中的能量接收和转换器件,整流天线在系统中发挥着重要的作用。整流天线的一个研究方向是在有限的功率密度环境下尽可能地吸收更多能量以提高能量转换效率。实际的能量采集过程中,天线的辐射方向、极化方式以及与整流电路的合并方式等都制约着能量采集系统的接收能力。本文设计了极化可重构全向圆极化天线,通过切换极化方式在辐射范围内提高天线
随着图像处理技术的发展和嵌入式硬件的进步,基于机器视觉的无人机着陆已经成为非常热门的研究领域。无人机视觉着陆控制是无人机飞行控制系统的关键技术之一,它对无人机着陆的稳定性,准确性,可靠性和实时性能有很高的要求。基于视觉的着陆系统是学者们研究的热点,与传统的系统相比,该系统具有成本低、抗干扰能力强的优点。实现无人机视觉着陆的基本要求是获取无人机所处环境的信息并通过该信息准确估计无人机的位姿姿态,其中
由于光照、色调等因素的干扰,采集自不同摄像头的同一个行人的图像通常存在视觉差异,而不同行人的图像却可能很相似,因此往往很难用线性模型来区分它们。我们通过对传统的只能用于单视图场景的协同表示分类器(CRC)进行跨视图非线性扩展,提出跨视图核协同表示分类(CV-KCRC)框架并将之应用于行人重识别。CV-KCRC不仅能增强CRC处理跨视图异类样本线性难分问题的能力,而且还能提升了模型的判别力和鲁棒性。
近年来,物联网(Internet of Things,Io T)技术发展迅速,其应用领域已经扩展到智能家居、智能医疗、农场监测和智慧交通等方面。由于无线通信环境的开放性,安全与隐私问题是物联网发展的关键因素。认证方案是实现物联网安全的第一道防线,但是单一认证方案容易造成传感器节点认证的延迟、网络资源占用问题,而群组认证方案能够提高网关对节点的认证效率,适合节点数目繁多的物联网环境。此外,若节点以真
信息隐藏是保证网络通信数据安全的重要手段之一,发送方可以通过密钥和特定算法将秘密信息嵌入到载体中,再由接收方通过密钥和特定算法提取出秘密信息。其中,图像因其易获取性和多样性,成为目前使用最为广泛的隐藏载体之一。信息隐藏技术不仅能够保证秘密信息本身的安全,还能保证载密图像进行可靠的传输,因而受到国内外学者的广泛关注及深入研究。传统自适应图像隐写算法对于待改变像素位置选择大多依赖人为经验设计,需要耗费
深度神经网络在图像分类、目标识别等任务中已经取得了显著效果,然而训练集(源域)和测试集(目标域)的数据分布不一致会导致模型的性能大幅下降。领域自适应在解决训练数据与测试数据分布不同方面具有重要的现实意义。本文重点研究在目标域无标签的情况下提取领域不变特征,提高模型对于目标域的分类准确率。现有的域适应方法忽略了目标样本的分类信息,在特征提取过程中生成器往往在分类边界产生有分歧的特征从而影响了模型分类