PAD情绪模型在情感语音识别中的应用研究

来源 :太原理工大学 | 被引量 : 9次 | 上传用户:tsmljgh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人类日常生活中的语音除了蕴含着基本的文字信息,还饱含着复杂的情感状态。本文以情感计算为背景,在构建一个自然、真实、有效的情感语音数据库的基础上,引入连续维度情感理论的PAD三维情绪模型,利用犹豫模糊信息对语音的三维PAD值进行了预测,实现了语音情感的定量化研究。所做的主要工作有以下几点:1.选择高兴、愤怒、悲伤、惊奇四种情感类别,采用截取广播剧的方式获取所需四种情感的摘引型语音数据库。相较于表演型情感语音数据库,该数据库由于是从广播剧中截取获得,因此情感类型丰富,人物多样,生活场景繁多,情感语音更加贴近现实生活,符合日常表达习惯,具有较好的实用性。2.为了确保情感语音数据库的质量,建立了合理有效的评价模型,对截取获得的初选阶段语音库进行了评价筛选:首先以模糊判决为主,借助层次分析法和熵权法确定综合评价指标的权重,建立基于层次分析法和熵权法的模糊综合评价体系,然后分别从情感准确度、背景噪声影响、清晰度、自然度、画面感五个方面建立情感语音数据库评价指标体系,最后运用该模型对截取的情感语音数据库进行模糊综合评价,筛选并建立了最终的情感语音数据库TYUT2.0。3.给出了情感语音特征与PAD三维情绪模型相关性研究的新思路。不仅从传统离散角度描述情感类型,即研究高兴、愤怒、悲伤、惊奇四种基本情感,还从连续维度情感理论角度来分析语音库中的情感内容,使用了心理学标注的PAD(愉悦度、激活度、优势度)三维情绪模型对情感语音进行描述,提出了一种情感语音特征与PAD情绪模型相关性分析方法。在TYUT2.0情感语音数据库的基础上,提取梅尔频率倒谱系数、线性预测系数、韵律特征、共振峰频率和过零峰值幅度特征五种语音特征并应用于情感语音识别,首次将识别结果映射到PAD三维情绪空间中,利用Pearson相关方法将机器识别出的情感所对应的PAD三个维度值与真实情感所对应的PAD值进行相关性计算,分析PAD模型中三个维度和不同声学特征之间的相关性。利用情感语音识别结果的相关性分析可以对语音特征进行优化调整,为接下来的基于连续维度的情感语音识别提供基础。4.提出了一种新的基于犹豫模糊信息的决策级融合方法。根据不同特征的识别结果,通过声学特征与PAD三个维度间的相关系数确定不同特征的决策级融合权重,最后利用犹豫模糊集的相似度融合预测了语音在PAD情绪空间模型中的三个维度值,得出情感语音在连续维度角度的数值表示,实现基于连续维度的情感语音识别。通过情感语音在愉悦度、激活度、优势度上的空间分布,进一步分析语音的情感状态由哪些基本情感构成,也可根据其空间分布为情感语音识别的误判原因提供研究基础。
其他文献
中国长城资产管理公司(以下简称长城资产管理公司)是拥有商业化不良金融资产最多的资产管理公司之一,社会上曾对其收购的不良资产能否实现整体盈利存在质疑,经营处置面临巨大压
摘要:在贱视赘婿的封建社会,李白一生曾两次以入赘的方式进相门做女婿却心无芥蒂,本文试从唐代社会的婚嫁标准;李白的教育成长环境;李白的理想抱负三方面分析其中的原因。  关键字:李白;赘婿;原因  中图分类号:I042 文献标识码:A 文章编号:1671-864X(2015)10-0032-02  魏颢《李翰林集序》中说“白始娶于许,生一女一男,曰明月奴,女既嫁而卒。又合于刘,刘诀,次合于鲁一妇人,生
上好英语教材的阔读课,教学设计十分重要。首先要做好新旧知识的衔接,重视新课的导入,激发阅读兴趣。对阅读方法和技能要给予认真指导,拓展阅读理解能力,提高阅读效率。
【点评】万科物业接管横琴、鼓浪屿,保利物业接管西塘……与以往的物业服务不同,"物业城市"的概念,拓宽了物业服务的边界,将整个城市看作一个大的物业社区,进行运营和管理。
为了有效预防煤矿各类隐患和事故的发生,做到预先消除或控制风险,努力控制生产过程中的安全风险,规范煤矿的安全生产活动,通过对岗位、系统、区域危险源辨识与控制的研究,构建起了
近年来,服务业在国民经济中比重持续增长,许多发达国家的服务业产值在国家的经济活动中已占据主导地位,成为促进经济发展的核心产业,其中现代服务业的发展水平成为衡量一个国