论文部分内容阅读
情感识别是多媒体信息处理、模式识别以及计算机视觉等领域的研究热点。随着深度学习、人工智能的发展,情感识别作为人机交互中的关键所在,受到研究人员的广泛关注。情感的表达方式多种多样,其中面部表情和语音是两种最为重要的情感载体,基于面部表情和语音的双模态情感识别研究具有重要的现实意义。本文主要针对面部表情和语音两种模态,研究深度学习在双模态情感识别方面的应用。主要工作如下:(1)为了避免传统面部表情识别中复杂的显示特征提取过程,对经典的卷积神经网络结构AlexNet进行改进,提出了一种基于改进AlexNet的面部表情识别方法;针对当前面部表情数据库样本量不充足的情况,研究了一种基于VGG-face模型微调的面部表情识别方法,使得样本数较小的数据集也能利用深层卷积神经网络获得更好的识别效果;考虑到面部表情的变化是一个循序渐进的过程,为了利用该变化过程中面部表情之间的相关性,进而研究了一种基于卷积神经网络和循环神经网络的面部表情识别方法。(2)为了提高语音情感识别的准确率,本文研究了一种基于卷积神经网络的语音情感识别方法,完成情感的分类;语音信号作为一种时序序列,在时间上具有很强的相关性,为了利用语音序列前后之间的相关性,研究了一种基于双向长短时间记忆网络的语音情感识别方法;为了综合长短时间记忆网络和卷积神经网络的优点,提出了一种基于长短时间记忆网络和卷积神经网络的语音情感识别方法。(3)以面部表情和语音两个模态为研究对象,分析比较了包括核典型相关分析、核矩阵融合、核交叉模型因子分析在内的特征融合算法以及基于加权的决策融合算法。选用eNTERFACE’05、RML、AFEW6.0三种双模态情感数据库进行实验验证,实验结果表明,借助融合方法得到的双模态情感识别结果比单模态情感识别结果有明显提高。