论文部分内容阅读
近年来,随着人工智能的兴起,人们越来越希望机器可以更加智能地提供更加方便快捷的定制式服务,智能机器的一个重要的功能就是智能人机交互,因此,智能人机交互的需求在不断增大,面部表情识别是实现智能人机交互的重要途径,而卷积神经网络在图像处理方面有着极强的性能,近几年基于CNN进行面部表情识别(Facial Expression Recognition,简称FER)的研究一直从未间断,并且取得很多的成果,极大的推动了面部表情识别研究的发展。目前,基于神经网络的面部表情识别方法存在一些局限性,从而导致以往研究的实际应用受到限制,例如:已有的面部表情识别方法基本上是基于实验控制环境下的正面面部表情识别,而在开放环境下,或者说是变化比较大的原生环境中,其泛化性能较差,甚至会出现不能使用的情况。具体来说,当前基于神经网络的面部表情识别方法的局限性主要表现在三个方面:(1)没有考虑到表情特征信息强度和面部不同区域的关系,直接使用面部识别的方法,笼统地对整张人脸提取表情特征,用于面部表情识别,而面部表情特征集中在眼睛和眉毛、嘴巴和鼻子下部这些区域,本文称这些区域为关键表情区,其对表情识别更具有价值。(2)部分相关工作考虑了关键表情区,但将关键表情区的提取和使用分成两个独立的阶段,这让整体模型的性能不可控。(3)当前采用关键表情区进行表情识别的方法,对于面部图片有着一定的特定要求,如[8][22]等,当要求不满足时,模型不能使用。为了突破以往面部表情识别研究的局限,本文基于关键表情区进行面部表情识别,提出了解决办法,并进行实验验证。本文主要研究内容如下:本文针对前两个局限,分析面部表情分类精度和关键表情区边界之间的相互关系,提出了表情识别和关键区域边界框回归混合预训练方法;分析了同类面部表情图片,面部表情识别模型预测的表情概率分布状况和模型性能的关系,提出了基于缩小类内输出差异的模型微调方法;最后将两者整合,形成了针对表情识别模型训练的两阶段训练方法。在两阶段训练方法研究的基础上,本文同时针对以往表情识别研究的三个局限,对本文提出的面部表情识别模型两阶段训练方法和以往的融合表情识别方法的进行分析,在基于关键区域进行面部表情识别的前提下,进一步提出一个关键表情区判别模型,以产生关键表情区掩膜图像,降低对面部表情图片质量的要求,提出了一个双通道特征融合模型,以提高表情特征提取能力,引入一个关键表情区重合度的概念,将这两个模型的训练过程整合,形成了端到端的基于特征融合的双通道面部表情识别模型。对本文提出的针对表情识别模型训练的两阶段训练方法、基于特征融合的双通道面部表情识别模型分别进行实验,使用两阶段训练算法训练出来的模型在CK+上的识别精度达到93.59%。基于特征融合的双通道面部表情识别模型在CK+和FER2013上的识别精度分别达到94.63%、72.59%,这基本达到当前较好表情识别方法取得的结果。