基于表情和语音信号的情感识别研究

来源 :山东大学 | 被引量 : 0次 | 上传用户：jhl1989

【摘要】

：

随着人口老龄化现象和空巢老人数量的增加,家庭服务机器人成为研究热点。机器人对人类情感的自主分析有助于为人类提供更好的服务。在日常生活中,由于我们对情感信息的获取多

【作者】

：

张鹤鹏

【出处】

：

山东大学

【发表日期】

：

2004年期

【关键词】

：

面部表情识别语音情感识别卷积神经网络循环神经网络 GAN

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着人口老龄化现象和空巢老人数量的增加,家庭服务机器人成为研究热点。机器人对人类情感的自主分析有助于为人类提供更好的服务。在日常生活中,由于我们对情感信息的获取多来自于表情和语音信号,因此面部表情识别(Facial Expression Recognition FER)和语音情感识别(Speech Expression Recognition SER)就成为了情感识别研究的重要组成部分。同时,随着AI技术和计算机视觉技术的不断发展,基于深度学习和图像处理的情感识别方法被广泛应用。在此基础上,本文针对如何进一步提高面部表情识别和语音情感识别的准确率问题进行了研究。面部表情识别通常可以分为静态面部表情图像识别和面部表情图像序列识别两种。针对静态面部表情图像识别,本文对图像背景信息影响表情识别准确率的问题,利用提取面部前景图像的方法来提高识别率,对仅用单一图像特征导致表情识别效果不好的问题,本文利用RGB图像通道和局部二值模式图像通道融合的方法,提出了双通道权值融合的卷积神经网络(Double-channel weighted mixture convolution neural networks WMCNN)。模型在公开表情数据集 CK+、JAFFE、Oulu 和 MMI 上的识别率分别为 99.07%、92.38%、86.034%和 78.24%,通过与现有方法对比发现,我们的模型进一步提高了表情识别的准确率。同时,通过与单通道识别网络的识别结果进行对比,可以发现通过增加LBP图像通道可以有效的提高表情识别的准确率。针对常见的公开面部表情数据集样本数量小导致网络泛化性能差的问题,本文利用生成对抗网络(Expression Gan ExGAN)来扩充现有的表情数据集,构建了 Our-DB表情数据集。通过实验验证了使用扩充数据集训练WMCNN模型能够更好的提高模型的泛化性能,提高模型的识别效果。另外,本文针对网络对难分类表情识别率较差的问题,通过增加注意力网络和注意力损失,在WMCNN网络模型的基础上提出了双通道权值融合的注意力卷积神经网络(Attention convolution neural network based on two channel weight mixture AWMCNN)。并在Our-DB数据集上验证了 AWMCNN模型比WMCNN模型有更好的识别效果,能更好的识别难分类表情样本。针对单帧图像容易导致表情误识别的问题,使用基于视频序列的面部表情识别方法,在上述静态表情图像识别方法的基础上,结合循环神经网络提出了双通道权值融合的卷积长短期记忆网络(WMCNN-LSTM)和双通道权值融合的注意力卷积双向长短期记忆网络(AWMCNN-BILSTM)用于提升表情识别的准确率。最终,本文对WMCNN-LSTM模型在CK+、Oulu和MMI数据集上进行了十折交叉验证实验,实验结果分别为98.75%、87.91%和87.14%。与基于静态表情图像的模型相比,WMCNN-LSTM网络可以进一步提高面部表情识别的准确率。同时,为了说明AWMCNN-BILSTM网络模型的识别效果,本文对WMCNN-LSTM网络和AWMCNN-BILSTM网络在Our-DB数据集上进行实验,实验结果分别为90.438%和91.825%,通过对比可以发现AWMCNN-BILSTM网络与WMCNN-LSTM网络相比可以更好的识别面部表情图像序列。在语音情感识别中,针对使用单一语音特征导致表情识别准确率不高的问题,本文展现了语谱图和3-D Log-Mels特征图在语音情感信号上的表现能力,通过结合这两种语音特征提出了 AWMCNN-BILSTM网络。该模型使用语谱图和3-D Log-Mels特征图作为两个通道的输入特征,两个通道的输出在决策层按照加权融合方法得到最终的识别结果。模型在公开语音情感数据集IEMOCAP和EMO-DB上的未加权准确率分别为69.2%和93.05%,与其他现有方法相比,均取得了较高的识别率。

其他文献

转录延伸因子Gdown1的功能初探和转录延伸抑制相关因子相互作用的研究

研究背景:长久以来,转录起始复合物(PIC)的组装被认为是RNA聚合酶Ⅱ(也叫做PolⅡ或RNAP II)催化的真核生物转录调控的一个限速步骤。然而,近年来的研究表明转录过程在转录延

学位

转录延伸多梳抑制复合物1Gdown1DSIFNELF

基于Ruddlesden-Popper结构的La2NiO4+δ透氧材料的制备及性能研究

Ruddlesden-Popper(R-P)结构的类钙钛矿材料相对比普通钙钛矿材料具有相对较低的透氧量,但稳定性优于钙钛矿材料,近年来引起广泛关注。因此本文选取R-P结构的La2Ni04+δ(LNO)

学位

中空纤维透氧膜Ruddlesden-Popper结构混合离子-电子导体热膨胀耐CO2性能电导率

基于指纹与指静脉特征级融合的多生物特征加密算法研究

生物特征识别技术是全球用于身份识别方案中使用最广泛的技术之一,经常可以在不同生活场景下的电子设备中见到指纹与指静脉这两种生物特征识别技术的应用。然而,这种依赖单一

学位

指纹特征指静脉特征特征融合特征加密多生物特征

基于深度学习的中文零指代消解研究

近年来,随着人们进入“大数据”时代,海量的自然语言信息增加了人们获取有效信息的难度。以计算机技术为基础的自然语言处理应运而生,其融合语言学、数学等学科来处理非结构

学位

零指代检测消解长短时记忆网络深度学习

独立保函风险防范机制研究

独立保函作为担保的一种新型模式,具有独立性、不可撤销性、审查表面性及单据性的法律特征,并以其“先付款后争议”的功能在涉外贸易中广泛使用。独立保函主要涉及申请人、受

学位

独立保函独立担保见索即付受益人欺诈法院止付

基于产业生态系统的高端制造业演化路径研究

近年来,美国政府实行的“再工业化”、德国政府提出的工业4.0战略都瞄准了制造产业升级所带来的机遇,在高端制造领域进行前沿技术创新扶持,在全球范围掀起了以智能化为主导的第四次工业革命。而我国高端制造业缺乏核心技术、自主创新能力薄弱、高端装备和关键零件大部分依赖进口,在国际产业链中处于中低位置。目前国家对于高端制造业给予了充分的重视,并多次纳入到我国的发展规划及政策中。本文基于产业生态系统对我国高端制

学位

高端制造业产业生态系统系统动力学智能技术仿真分析

自由射流的PIV实验与数值模拟研究

射流是在反应堆工程领域广泛存在的一类物理现象,自由射流是对一般射流过程的简化,研究自由射流流场中流体瞬时速度的变化规律,对于了解湍流的模化方法具有重要理论意义,也对

学位

PIV自由射流时均流场湍流参数数值计算

新时代医务工作者职业道德教育研究

当前,我国社会主要矛盾已然发生改变,人民群众的生命健康质量已成为其对“美好生活”向往的一个基本单元。尽管健康话题涉及领域较大,但是医疗卫生领域是其核心事业。医务人员是医疗卫生事业的从业者,是医疗卫生领域的核心角色,也是推动我国医疗卫生事业向前发展、适应新时代变化、深化医药卫生体制改革,使得医疗卫生领域的改革发展成果惠及全体人民的一线实践者。在新时代,我国医务人员职业道德主要围绕“以人民健康”为中心

学位

思想道德教育医务人员医德职业伦理新冠肺炎疫情

股东大会决议不成立制度研究

随着我国社会主义市场经济的繁荣与发展,股份公司作为市场经济中进行市场交易的主体,地位越来越重要。股东大会决议是股份公司处理公司事务及与公司内部或外部实施民商事法律

学位

瑕疵决议股东大会决议决议效力决议不成立

基于深度森林算法的指静脉识别

随着科技的飞速发展,人们日常的行为习惯正逐步数据化,因此如何保障个人数据信息安全正是整个社会需要重点考虑的问题。目前生物识别技术正逐渐成为安保方面识别身份的重要手

学位

深度森林ROI区域提取ORB算法指静脉识别

基于表情和语音信号的情感识别研究

其他学术论文