【摘 要】
:
表情是传达人类情绪的重要渠道,随着计算机技术的快速发展和深度学习技术的落地使用,越来越多的研究人员开始使用深度学习相关技术进行人脸表情识别。近些年来,一系列人脸表情数据集的采集推动了该领域快速发展,表情数据集依据采集场景主要分为两种:一是受控实验室条件下的数据集,二是真实场景下的表情数据集。其中真实场景下的数据集在最近的研究工作中备受关注,这类数据集往往来源于网络爬取,数据集体量庞大,且受到遮挡、
论文部分内容阅读
表情是传达人类情绪的重要渠道,随着计算机技术的快速发展和深度学习技术的落地使用,越来越多的研究人员开始使用深度学习相关技术进行人脸表情识别。近些年来,一系列人脸表情数据集的采集推动了该领域快速发展,表情数据集依据采集场景主要分为两种:一是受控实验室条件下的数据集,二是真实场景下的表情数据集。其中真实场景下的数据集在最近的研究工作中备受关注,这类数据集往往来源于网络爬取,数据集体量庞大,且受到遮挡、姿态变化因素影响较多。面部遮挡和姿态变化问题是真实场景表情识别任务中的两大挑战,本文针对真实场景下表情识别任务中存在的面部遮挡和姿态变化问题,主要工作内容如下:(1)针对真实场景下表情识别存在的面部遮挡和姿态变化问题,提出了基于局部与整体特征自适应融合(Local and Global Adaptive Fusion,LGAF)的表情识别方法。该方法首先构建了一种表情识别模型,该模型包括区域裁剪模块、特征提取模块、特征融合模块和分类层,其中区域裁剪模块将输入的一幅人脸整体图像裁剪出多个局部区域图像,特征提取模块提取人脸整体图像和及其多个局部区域图像的特征,特征融合模块通过注意力机制学习得到上述多个图像特征的注意力权重,并基于权重自适应选择重要特征进行加权融合,在特征融合过程中,受遮挡或姿态变化因素影响的低权重图像特征会被舍弃,从而抑制并排除了这些低权重图像特征对表情识别带来的不利影响;然后使用表情数据集中的训练样本对构建的表情识别模型进行训练,训练模型时,通过在损失函数中加入注意力权重约束项,强制表情识别模型更加关注比人脸整体图像更有鉴别力的人脸局部区域图像;最后利用表情数据集中的测试样本验证模型性能。实验结果表明,模型在FERPlus数据集和RAF-DB数据集上的准确率相对于基准线分别提高了3.96%和4.11%,达到了89.10%和87.19%。(2)针对局部区域图像中的信息冗余问题,提出了一种混合域注意力机制模块。该模块首先引入了空间域注意力机制,依据训练得到的空间域注意力权重强调某些重要空间特征,接着引入了通道域注意力机制,依据训练得到的通道域注意力权重强调某些重要的通道特征,最后将空间域注意力机制与通道域注意力机制融合,同时从空间域和通道域两个维度提取重要特征。同时在混合域注意力模块中使用软性池化代替最大池化和平均池化,从而避免了最大池化存在丢失特征较多,局部失真问题以及平均池化各值贡献平均化问题。通过使用混合域注意力模块,模型可以有效地抑制局部区域图像中的无关特征,有利于对真实场景下的表情图像进行分类。实验结果表明,模型在FERPlus数据集和RAF-DB数据集上的准确率相对于基准线分别提高了4.40%和4.76%,达到了89.54%和87.84%。(3)为了探究所提表情识别模型在含有遮挡和较大姿态变化样本上的性能,在FERPlus和RAF-DB原始测试集上进行筛选得到了遮挡测试集和姿态变化测试集。其中遮挡测试集包含诸如眼镜遮挡、围巾遮挡等面部表情图像,姿态变化数据集主要包含诸如抬头、低头以及头部偏转等面部表情图像。文中实验部分,所提LGAF模型和混合域注意力模块均使用上述测试集进行了消融实验,实验表明,在面部遮挡和姿态变化条件下,各个模块均有有益效果,最终模型在FERPlus遮挡测试集和姿态变化测试集的准确率相对于基准线分别提高了11.15%和5.56%,达到了84.17%和80.72%,在RAF-DB遮挡测试集和姿态变化测试集的准确率相对于基准线分别提高了5.20%和4.00%,达到了83.48%和85.80%。
其他文献
随着三维重建技术在逆向工程、生物医疗和虚拟现实等领域的广泛应用,重建过程中的三维物体数字化处理成为当前研究的热点。在三维物体数字化过程中,点云对齐十分重要,其一般可分为粗对齐和精细对齐两个步骤。粗对齐利用算法提高两片分离较大的点云间重叠率,为后续精细对齐的成功提供基础。受点云内部的复杂特性以及噪声等因素的影响,传统粗对齐算法的对齐效果和鲁棒性存在较大的改进空间。近年来,深度学习的广泛流行为点云对齐
斜拉桥的运行状态关系到国家经济发展和人民生命安全,需要定期对拉索进行检测和维护,因此研究斜拉桥拉索损伤检测及其评估方法意义重大。斜拉桥拉索是由导磁性能良好的高碳钢制成,适合使用漏磁检测方法对其内部钢丝的损伤进行检测。本文在分析当前国内外斜拉桥拉索漏磁检测技术研究现状的基础上,提出了一种螺旋爬升模式下的拉索断丝漏磁检测方法,主要研究内容如下:首先,在分析拉索的损伤以及无损检测方法及其局限性的基础上,
移动边缘计算(Mobile Edge Computing,MEC)通过将存储、计算能力下沉到移动边缘节点,提供一个高性能、低延迟与高带宽的电信级服务环境,加速网络中各项内容、服务及应用的分发和下载,让用户享有更高质量网络体验。但随着车联网、自动驾驶等移动应用的兴起,由于边缘节点的网络覆盖范围有限,当用户移动到其他边缘节点覆盖范围内时,会导致与本地边缘云的网络连接变差,从而降低服务质量(Qo S)或
近年来,由于奇异系统不仅可以刻画动力学系统的动态特性,还能表征系统的静态约束,因而被广泛用于描述实际系统。而随着数字计算机技术的发展,实际系统的输出往往采用采样保持模式进行测量和传输,由此提出的事件触发机制不仅能够保证系统的性能,而且能有效节省通信资源。更重要的是,虽然随着计算机技术的提升,工业系统朝着大规模、高性能等方向发展,但仍然不可避免地会发生故障,因此如何尽早检测出系统的故障一直是研究的热
随着手机芯片技术的快速发展,智能终端已逐渐转变成具有通讯和娱乐功能的强大设备。传统的移动云计算(Mobile Cloud Computation,MCC)因为服务器离用户设备(User Equipment,UE)较远导致UE的实时应用无法满足,所以人们只好将服务器下层到网络的边缘,使其能够在靠近UE的位置提供服务。移动边缘计算(Mobile Edge Computation,MEC)技术因此而生,
钙钛矿太阳能电池(PSCs)由于效率高、成本低、可溶液法制备等优点近年来受到了科研工作者的广泛关注。钙钛矿太阳能电池虽然发展非常迅猛,但仍然存在一些问题阻碍着电池能量转换效率(PCE)的进一步提高,如界面缺陷、界面能级不匹配等。二氧化锡(SnO2)是目前应用于钙钛矿太阳能电池中最常见有效的阴极界面材料,尤其是应用在高效的n-i-p结构中,其可以很好地改善阴极界面质量,提高电池性能。但SnO2表面存
随着信息技术的发展,人们越来越重视自身的信息安全和生命财产安全,VR监控得到大家的广泛关注。但是VR监控仍面临许多问题,其中采集端全景图像融合技术是限制其广泛应用的瓶颈。本文面向VR监控领域,针对多路摄像机时钟不同步与运动前景导致的配准精度低、融合质量差等问题,提出基于先验驱动双向补偿的图像配准算法与考虑时空关系的最佳缝合线算法。所提算法可更好的应用于VR监控领域,主要内容如下:(1)对VR监控的
四旋翼无人机因其优异的性能和低廉的成本等优点,在军事、民用和商业领域的应用越来越广泛。但其在飞行过程中易受到风扰、执行器故障、模型不确定性和输入饱和等诸多问题的影响,因此本文针对存在扰动、执行器故障和输入饱和的四旋翼无人机数学模型,设计复合抗干扰控制器,具体研究工作如下:首先针对四旋翼无人机中存在的扰动和执行器故障问题,通过观测器结合非奇异终端滑模控制的方法提出了一种针对无人机系统的复合抗干扰容错
随着5G时代的到来、计算机技术和数字视频技术的不断发展,视频数据量与日俱增。因此,现实生活中出现了这一技术需求——能够大幅缩短视频时长同时保留原视频的主要内容。视频摘要方法的出现成功应对了这一需求,它可以减少人们浏览视频的时间,同时还节约了大量的存储空间。但是,目前视频资源种类繁多,每类视频都有其特点,例如对于电影电视剧而言,重要的是其情节,而监控视频在乎的是视频中的目标对象,这对视频摘要技术造成
注意力是一种神经认知过程,描述的是人在心理和生理对某些事情的集中能力。注意力缺失患者有易冲动和好动的症状,以至于很难集中精神,从而导致学习和工作效率的下降,严重影响到人们正常的生活。因此,研究注意力脑电是很有必要的。论文针对不同注意力水平的个体在数数、闭眼、空闲三种状态下的注意力脑电数据,分别采用Sigmoid核、高斯核以及多项式核的非线性格兰杰因果的方法来分析左脑与右脑之间的因果关系。主要的研究