论文部分内容阅读
随着智能时代的到来,情感识别任务成为众多学者研究的热点问题之一。研究情感识别不仅能够优化人机交互的体验,而且在个性化推荐、健康监督、交互式游戏等等方面具有广泛的应用前景。视频作为一种被广泛利用的信息载体,包含了大量的情感信息。这使得学者们对视频中的情感识别问题产生了浓厚的兴趣。摄像头和移动设备的普及带来了视频数据量的急剧增长。早期靠人工手动标注视频的情感内容的方式已经远远不能适应视频数据增长的速度,因此,自动地识别视频的情感内容变成了一种迫切的需求。如何从多模态视频中的音频模态和视觉模态提取更具表征力的特征来表达视频的情感内容是视频情感内容分析任务中的一大难点。针对这个难点,本文提出了两种视频情感分析方法。(1)本文基于手工特征和深度学习,提出了基于广义主角的视频情感内容分析方法。通过观察发现,视频中不同角色在视频中起到的作用不同,其中主要的角色对视频的情感表达起了更为重要的作用。与大多数学者将所有人脸不分主次全部考虑的做法不同,在众多的角色中根据一定的标准,本方法挑选出在视频表达情感中起重要作用的角色,并将这样的角色命名为广义主角。在众多的视频帧中,基于广义主角来提取其中的关键帧并获得对应的光流图像,然后通过卷积神经网络对包含广义主角的关键帧和光流图像,在空域和时域上分别提取特征。与此同时,提取视频中常用的过零率、梅尔倒谱系数、颜色等手工音频视觉特征作为补充。最后将该网络分别提取出的空域和时域特征,联合以上手工特征进行视频情感的映射,从而分析出视频包含的情感信息。实验表明,与相关研究工作的结果对比,本方法能够得到更好的识别效果。(2)另外,本文运用深度学习,建立了一个基于时空域信息的多模态混合神经网络框架来识别视频中的情感内容。该框架包括两个模态,一个是视觉模态,一个是音频模态。对于视觉模态采用了R2plus1d网络来提取视频的时空域信息,从而分析视频的情感内容。对于音频模态,利用一维音频信号转成的二维对数梅尔频谱图作为输入,然后送入Visual Geometry Group(VGG)网络中进行带有时空域信息的特征提取。最后将两个模态的特征通过深度信念网络(DBN)进行特征融合,从而对视频中的情感进行映射。实验表明,本方法提出的框架能够有效地提取出视频当中的音频视觉时空域信息,在视频情感内容识别任务中表现出良好的性能。