论文部分内容阅读
随着人口老龄化现象和空巢老人数量的增加,家庭服务机器人成为研究热点。机器人对人类情感的自主分析有助于为人类提供更好的服务。在日常生活中,由于我们对情感信息的获取多来自于表情和语音信号,因此面部表情识别(Facial Expression Recognition FER)和语音情感识别(Speech Expression Recognition SER)就成为了情感识别研究的重要组成部分。同时,随着AI技术和计算机视觉技术的不断发展,基于深度学习和图像处理的情感识别方法被广泛应用。在此基础上,本文针对如何进一步提高面部表情识别和语音情感识别的准确率问题进行了研究。面部表情识别通常可以分为静态面部表情图像识别和面部表情图像序列识别两种。针对静态面部表情图像识别,本文对图像背景信息影响表情识别准确率的问题,利用提取面部前景图像的方法来提高识别率,对仅用单一图像特征导致表情识别效果不好的问题,本文利用RGB图像通道和局部二值模式图像通道融合的方法,提出了双通道权值融合的卷积神经网络(Double-channel weighted mixture convolution neural networks WMCNN)。模型在公开表情数据集 CK+、JAFFE、Oulu 和 MMI 上的识别率分别为 99.07%、92.38%、86.034%和 78.24%,通过与现有方法对比发现,我们的模型进一步提高了表情识别的准确率。同时,通过与单通道识别网络的识别结果进行对比,可以发现通过增加LBP图像通道可以有效的提高表情识别的准确率。针对常见的公开面部表情数据集样本数量小导致网络泛化性能差的问题,本文利用生成对抗网络(Expression Gan ExGAN)来扩充现有的表情数据集,构建了 Our-DB表情数据集。通过实验验证了使用扩充数据集训练WMCNN模型能够更好的提高模型的泛化性能,提高模型的识别效果。另外,本文针对网络对难分类表情识别率较差的问题,通过增加注意力网络和注意力损失,在WMCNN网络模型的基础上提出了双通道权值融合的注意力卷积神经网络(Attention convolution neural network based on two channel weight mixture AWMCNN)。并在Our-DB数据集上验证了 AWMCNN模型比WMCNN模型有更好的识别效果,能更好的识别难分类表情样本。针对单帧图像容易导致表情误识别的问题,使用基于视频序列的面部表情识别方法,在上述静态表情图像识别方法的基础上,结合循环神经网络提出了双通道权值融合的卷积长短期记忆网络(WMCNN-LSTM)和双通道权值融合的注意力卷积双向长短期记忆网络(AWMCNN-BILSTM)用于提升表情识别的准确率。最终,本文对WMCNN-LSTM模型在CK+、Oulu和MMI数据集上进行了十折交叉验证实验,实验结果分别为98.75%、87.91%和87.14%。与基于静态表情图像的模型相比,WMCNN-LSTM网络可以进一步提高面部表情识别的准确率。同时,为了说明AWMCNN-BILSTM网络模型的识别效果,本文对WMCNN-LSTM网络和AWMCNN-BILSTM网络在Our-DB数据集上进行实验,实验结果分别为90.438%和91.825%,通过对比可以发现AWMCNN-BILSTM网络与WMCNN-LSTM网络相比可以更好的识别面部表情图像序列。在语音情感识别中,针对使用单一语音特征导致表情识别准确率不高的问题,本文展现了语谱图和3-D Log-Mels特征图在语音情感信号上的表现能力,通过结合这两种语音特征提出了 AWMCNN-BILSTM网络。该模型使用语谱图和3-D Log-Mels特征图作为两个通道的输入特征,两个通道的输出在决策层按照加权融合方法得到最终的识别结果。模型在公开语音情感数据集IEMOCAP和EMO-DB上的未加权准确率分别为69.2%和93.05%,与其他现有方法相比,均取得了较高的识别率。