论文部分内容阅读
情感语音识别已经成为人机交互的重要研究领域之一。通过感知情感状态,计算机可以对人类的行为进行简单地认知并采用更为人性化的方式进行交流,拓展了人机交互的更多可能性。情感语音识别是通过计算机手段从说话人的语音信号中识别出情感状态。鉴于富含情感的沟通对社会关系的重要性,情感语音识别在人机对话、情感计算、心理和精神疾病诊断等方面都有日趋广泛的应用潜力。由于情感的多模态性和自发性,以及情感理论相关研究的滞后性等多种原因的存在,仍然没有建立起完全成熟的情感识别系统。结合当前的情感语音识别研究状况与实际需要,本文首先对情感语音数据库、特征提取以及识别网络部分三个部分分别进行介绍,然后重点对情感语音特征提取的方法和手段进行详尽的研究和论述,提出了基于语音发声机理混沌特性的新非线性特征,实验证明了本文提取的非线性特征弥补了以往提取的特征不足之处。主要的研究内容包括如下部分:(1)介绍了情感语音识别的基础知识,包括常用的数据库、特征提取和识别网络。针对常用的情感特征(韵律特征、基于谱的特征、音质特征和TEO能量算子)和识别网络展开了理论简介。介绍了语音发声和传播过程中体现出的非线性特性,接着采用非线性动力学理论分析方法,从功率谱分析、主分量分析、相空间重构三个方面验证了情感语音是具有混沌特性的。(2)在验证了情感语音信号的混沌特性的基础上,将情感语音信号看作一维时间学列,采用时间序列分析方法实现情感语音的高维状态空间的重构,为进一步提取基于情感语音混沌特性的非线性特征做准备。为了实现情感语音的高维空间重构,本文分别采用邻接误差法、平均互信息法以及C-C方法得到一维情感语音信号相空间重构需要的嵌入维数和延时时间两个参数,为非线性分析方法提取情感语音非线性新特征提供了条件。(3)提出将情感语音信号处理与非线性动力学模型相结合的方法并仿真实现了基于情感语音混沌特性的非线性特征提取。这些特征包括最小延迟时间、关联维数、Kolmogorov熵、最大Lyapunov指数和以及用于描述时间序列相关性的Hurst指数特征,并对上述的非线性特征与情感区分能力之间的关联性进行了定性分析,通过实验验证了基于混沌特性的语音情感非线性特征可以作为语音情感区分的有效的新特征量。(4)利用基于混沌特性的情感语音非线性特征进行了情感语音识别。首先选择在公开的Berlin语音数据库和自建的离散情感语料库TYUT2.0作为实验备选数据库,然后分别提取了韵律学特征、MFCCs和非线性特征及其对应的统计特征,其次对语音情感非线性特征、韵律学特征和MFCCs的性能定性分析,确定了非线性特征是区分语音情感的有效特征;最后分别使用上述三类特征的不同特征融合作为识别系统的输入。通过识别率对比,验证了融合非线性特征后的系统识别性能有了较为显著的改善。