【摘 要】
:
随着科学技术的不断发展,人类社会已步入人工智能时代。当前,人工智能的发展已从机器智能发展到感知智能,并逐步迈向认知智能。人机交互作为认知智能的一种表现方式,离不开情感识别技术的支持。以往的情感识别技术大多是建立在单一模态的基础上,识别率低、鲁棒性差,因此,越来越多的研究集中在多模态情感识别上。多模态情感识别有两大关键问题,其一在于如何提取出有区别的情感特征,其二在于如何进行不同模态信息的有效融合。
论文部分内容阅读
随着科学技术的不断发展,人类社会已步入人工智能时代。当前,人工智能的发展已从机器智能发展到感知智能,并逐步迈向认知智能。人机交互作为认知智能的一种表现方式,离不开情感识别技术的支持。以往的情感识别技术大多是建立在单一模态的基础上,识别率低、鲁棒性差,因此,越来越多的研究集中在多模态情感识别上。多模态情感识别有两大关键问题,其一在于如何提取出有区别的情感特征,其二在于如何进行不同模态信息的有效融合。因此,本文的主要工作是通过提取得到有区别的情感特征,并且对不同模态情感信息进行融合来研究多模态情感识别。本文使用Multimodal数据库和RAMAS数据库进行表情、语音和姿态的多模态情感识别研究。首先对两个数据库中的视听数据进行预处理。针对表情模态数据,首先截取视频序列中的人脸部分,并等间隔选取关键帧,构成表情图像序列;针对语音模态数据,首先在视频数据中提取音频信息,并对其进行等时长切分,最后将音频信息转换为语谱图序列;针对姿态模态数据,对原始数据等间隔选取关键帧,构成姿态特征序列。将以上三种模态数据作为情感研究依据,研究单模态情感特征提取以及多模态情感特征融合,本文主要研究内容如下:(1)提出了一种基于不对称非局部和高效信道注意的时空神经网络,该网络用于提取深度情感特征。由于数据库中的姿态为人体骨骼点数据,与其余模态数据格式不同,无法输入网络,因此仅将表情、语音数据作为网络的输入。在网络中主要包括三个模块:第一个模块为不对称非局部模块,用于捕获长序列依赖关系;第二个模块为高效信道注意模块,在不降维的情况下实现局部跨信道交互,增强情感特征的非线性表达能力;第三个模块为时空LSTM模块,用于更好地学习情感特征的空间相关性以及情感特征序列的时间相关性,促进时空之间的信息交互。整个网络以端到端的方式进行训练,用于提取深度情感特征。(2)为了使单个模态之间的特征能够更好地融合形成有区别的情感特征表示,本文提出了一种基于不对称非局部和DBN的多层次多阶段融合网络,用于捕获不同模态之间的相关性以及差异性。第一阶段将表情、语音和姿态三种模态两两组合,在每一组中,将其中一种模态特征作为主导特征,另一种作为辅助特征,同时输入至不对称非局部模块中,利用该模块寻找辅助特征中有利于主导特征的情感信息,以此获得具有模态之间相关性的融合特征;第二阶段将一阶段获得的三组融合特征与原始三种模态特征一同输入至DBN融合网络中,得到具有各模态差异性的融合特征,该网络通过自下而上的无监督训练,执行误差反向传播来实现全局优化,加强融合特征的非线性表达能力,最后使用softmax方法完成情感分类。实验表明,使用基于不对称非局部和高效信道注意的时空神经网络能够提取到有区别的情感特征,使用基于不对称非局部和DBN的多层次多阶段融合网络能够有效地融合多模态情感信息,提升了情感识别的效果。
其他文献
近年来,由于奇异系统不仅可以刻画动力学系统的动态特性,还能表征系统的静态约束,因而被广泛用于描述实际系统。而随着数字计算机技术的发展,实际系统的输出往往采用采样保持模式进行测量和传输,由此提出的事件触发机制不仅能够保证系统的性能,而且能有效节省通信资源。更重要的是,虽然随着计算机技术的提升,工业系统朝着大规模、高性能等方向发展,但仍然不可避免地会发生故障,因此如何尽早检测出系统的故障一直是研究的热
随着手机芯片技术的快速发展,智能终端已逐渐转变成具有通讯和娱乐功能的强大设备。传统的移动云计算(Mobile Cloud Computation,MCC)因为服务器离用户设备(User Equipment,UE)较远导致UE的实时应用无法满足,所以人们只好将服务器下层到网络的边缘,使其能够在靠近UE的位置提供服务。移动边缘计算(Mobile Edge Computation,MEC)技术因此而生,
钙钛矿太阳能电池(PSCs)由于效率高、成本低、可溶液法制备等优点近年来受到了科研工作者的广泛关注。钙钛矿太阳能电池虽然发展非常迅猛,但仍然存在一些问题阻碍着电池能量转换效率(PCE)的进一步提高,如界面缺陷、界面能级不匹配等。二氧化锡(SnO2)是目前应用于钙钛矿太阳能电池中最常见有效的阴极界面材料,尤其是应用在高效的n-i-p结构中,其可以很好地改善阴极界面质量,提高电池性能。但SnO2表面存
随着信息技术的发展,人们越来越重视自身的信息安全和生命财产安全,VR监控得到大家的广泛关注。但是VR监控仍面临许多问题,其中采集端全景图像融合技术是限制其广泛应用的瓶颈。本文面向VR监控领域,针对多路摄像机时钟不同步与运动前景导致的配准精度低、融合质量差等问题,提出基于先验驱动双向补偿的图像配准算法与考虑时空关系的最佳缝合线算法。所提算法可更好的应用于VR监控领域,主要内容如下:(1)对VR监控的
四旋翼无人机因其优异的性能和低廉的成本等优点,在军事、民用和商业领域的应用越来越广泛。但其在飞行过程中易受到风扰、执行器故障、模型不确定性和输入饱和等诸多问题的影响,因此本文针对存在扰动、执行器故障和输入饱和的四旋翼无人机数学模型,设计复合抗干扰控制器,具体研究工作如下:首先针对四旋翼无人机中存在的扰动和执行器故障问题,通过观测器结合非奇异终端滑模控制的方法提出了一种针对无人机系统的复合抗干扰容错
随着5G时代的到来、计算机技术和数字视频技术的不断发展,视频数据量与日俱增。因此,现实生活中出现了这一技术需求——能够大幅缩短视频时长同时保留原视频的主要内容。视频摘要方法的出现成功应对了这一需求,它可以减少人们浏览视频的时间,同时还节约了大量的存储空间。但是,目前视频资源种类繁多,每类视频都有其特点,例如对于电影电视剧而言,重要的是其情节,而监控视频在乎的是视频中的目标对象,这对视频摘要技术造成
注意力是一种神经认知过程,描述的是人在心理和生理对某些事情的集中能力。注意力缺失患者有易冲动和好动的症状,以至于很难集中精神,从而导致学习和工作效率的下降,严重影响到人们正常的生活。因此,研究注意力脑电是很有必要的。论文针对不同注意力水平的个体在数数、闭眼、空闲三种状态下的注意力脑电数据,分别采用Sigmoid核、高斯核以及多项式核的非线性格兰杰因果的方法来分析左脑与右脑之间的因果关系。主要的研究
表情是传达人类情绪的重要渠道,随着计算机技术的快速发展和深度学习技术的落地使用,越来越多的研究人员开始使用深度学习相关技术进行人脸表情识别。近些年来,一系列人脸表情数据集的采集推动了该领域快速发展,表情数据集依据采集场景主要分为两种:一是受控实验室条件下的数据集,二是真实场景下的表情数据集。其中真实场景下的数据集在最近的研究工作中备受关注,这类数据集往往来源于网络爬取,数据集体量庞大,且受到遮挡、
量子密钥分发(Quantum key distribution,QKD)作为量子通信的一个重要分支,近几十年来得到了广泛的研究,它基于量子力学定律来实现发送方和接收方之间的无条件安全的密钥分发。然而,在实际的实验条件下,光子源和测量装置并不完美,造成了该协议有一些安全漏洞。2012年,测量设备无关的量子密钥分发(Measurement-device-independent Quantum key
医学领域上心率值是一个基础生理参数指标,心率异常往往预示着某些心血管疾病。对心率进行实时、有效地监控,可以为患者争取宝贵的抢救时间或提供及时治疗。然而传统的接触式心率测量正逐渐被非接触式测量方法所代替。该方法通过摄像头捕获人体皮肤颜色变化来提取原始信号,并计算心率。但这种方法受光照变化的影响,为克服此缺陷,本文研究了基于近红外的心率检测技术,主要工作如下:一方面,针对普通彩色摄像头的心率检测系统无