论文部分内容阅读
人类日常生活中的语音除了蕴含着基本的文字信息,还饱含着复杂的情感状态。本文以情感计算为背景,在构建一个自然、真实、有效的情感语音数据库的基础上,引入连续维度情感理论的PAD三维情绪模型,利用犹豫模糊信息对语音的三维PAD值进行了预测,实现了语音情感的定量化研究。所做的主要工作有以下几点:1.选择高兴、愤怒、悲伤、惊奇四种情感类别,采用截取广播剧的方式获取所需四种情感的摘引型语音数据库。相较于表演型情感语音数据库,该数据库由于是从广播剧中截取获得,因此情感类型丰富,人物多样,生活场景繁多,情感语音更加贴近现实生活,符合日常表达习惯,具有较好的实用性。2.为了确保情感语音数据库的质量,建立了合理有效的评价模型,对截取获得的初选阶段语音库进行了评价筛选:首先以模糊判决为主,借助层次分析法和熵权法确定综合评价指标的权重,建立基于层次分析法和熵权法的模糊综合评价体系,然后分别从情感准确度、背景噪声影响、清晰度、自然度、画面感五个方面建立情感语音数据库评价指标体系,最后运用该模型对截取的情感语音数据库进行模糊综合评价,筛选并建立了最终的情感语音数据库TYUT2.0。3.给出了情感语音特征与PAD三维情绪模型相关性研究的新思路。不仅从传统离散角度描述情感类型,即研究高兴、愤怒、悲伤、惊奇四种基本情感,还从连续维度情感理论角度来分析语音库中的情感内容,使用了心理学标注的PAD(愉悦度、激活度、优势度)三维情绪模型对情感语音进行描述,提出了一种情感语音特征与PAD情绪模型相关性分析方法。在TYUT2.0情感语音数据库的基础上,提取梅尔频率倒谱系数、线性预测系数、韵律特征、共振峰频率和过零峰值幅度特征五种语音特征并应用于情感语音识别,首次将识别结果映射到PAD三维情绪空间中,利用Pearson相关方法将机器识别出的情感所对应的PAD三个维度值与真实情感所对应的PAD值进行相关性计算,分析PAD模型中三个维度和不同声学特征之间的相关性。利用情感语音识别结果的相关性分析可以对语音特征进行优化调整,为接下来的基于连续维度的情感语音识别提供基础。4.提出了一种新的基于犹豫模糊信息的决策级融合方法。根据不同特征的识别结果,通过声学特征与PAD三个维度间的相关系数确定不同特征的决策级融合权重,最后利用犹豫模糊集的相似度融合预测了语音在PAD情绪空间模型中的三个维度值,得出情感语音在连续维度角度的数值表示,实现基于连续维度的情感语音识别。通过情感语音在愉悦度、激活度、优势度上的空间分布,进一步分析语音的情感状态由哪些基本情感构成,也可根据其空间分布为情感语音识别的误判原因提供研究基础。