情感语音的非线性特征研究

来源 :太原理工大学 | 被引量 : 8次 | 上传用户:cyqlsc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
情感语音识别已经成为人机交互的重要研究领域之一。通过感知情感状态,计算机可以对人类的行为进行简单地认知并采用更为人性化的方式进行交流,拓展了人机交互的更多可能性。情感语音识别是通过计算机手段从说话人的语音信号中识别出情感状态。鉴于富含情感的沟通对社会关系的重要性,情感语音识别在人机对话、情感计算、心理和精神疾病诊断等方面都有日趋广泛的应用潜力。由于情感的多模态性和自发性,以及情感理论相关研究的滞后性等多种原因的存在,仍然没有建立起完全成熟的情感识别系统。结合当前的情感语音识别研究状况与实际需要,本文首先对情感语音数据库、特征提取以及识别网络部分三个部分分别进行介绍,然后重点对情感语音特征提取的方法和手段进行详尽的研究和论述,提出了基于语音发声机理混沌特性的新非线性特征,实验证明了本文提取的非线性特征弥补了以往提取的特征不足之处。主要的研究内容包括如下部分:(1)介绍了情感语音识别的基础知识,包括常用的数据库、特征提取和识别网络。针对常用的情感特征(韵律特征、基于谱的特征、音质特征和TEO能量算子)和识别网络展开了理论简介。介绍了语音发声和传播过程中体现出的非线性特性,接着采用非线性动力学理论分析方法,从功率谱分析、主分量分析、相空间重构三个方面验证了情感语音是具有混沌特性的。(2)在验证了情感语音信号的混沌特性的基础上,将情感语音信号看作一维时间学列,采用时间序列分析方法实现情感语音的高维状态空间的重构,为进一步提取基于情感语音混沌特性的非线性特征做准备。为了实现情感语音的高维空间重构,本文分别采用邻接误差法、平均互信息法以及C-C方法得到一维情感语音信号相空间重构需要的嵌入维数和延时时间两个参数,为非线性分析方法提取情感语音非线性新特征提供了条件。(3)提出将情感语音信号处理与非线性动力学模型相结合的方法并仿真实现了基于情感语音混沌特性的非线性特征提取。这些特征包括最小延迟时间、关联维数、Kolmogorov熵、最大Lyapunov指数和以及用于描述时间序列相关性的Hurst指数特征,并对上述的非线性特征与情感区分能力之间的关联性进行了定性分析,通过实验验证了基于混沌特性的语音情感非线性特征可以作为语音情感区分的有效的新特征量。(4)利用基于混沌特性的情感语音非线性特征进行了情感语音识别。首先选择在公开的Berlin语音数据库和自建的离散情感语料库TYUT2.0作为实验备选数据库,然后分别提取了韵律学特征、MFCCs和非线性特征及其对应的统计特征,其次对语音情感非线性特征、韵律学特征和MFCCs的性能定性分析,确定了非线性特征是区分语音情感的有效特征;最后分别使用上述三类特征的不同特征融合作为识别系统的输入。通过识别率对比,验证了融合非线性特征后的系统识别性能有了较为显著的改善。
其他文献
到目前为止,所有与修饰后细蛋白结合的蛋白鉴定仅限于生物化学方法,而在基因组范围内的筛选工作还很少,有报道在细胞内表达异源性的蛋白激酶,用双杂合试验进行翻译后修饰特异
在某飞行器的起飞姿态的测试试验中,对燃气电磁阀和火工品点火组件的合理控制及伴随着试验过程产生的各种参数信号的采集处理分析是飞行器能否成功发射极为关键的环节。本文
随着用电量的增加,用户对电能可靠性和质量的要求逐步提高,电力行业面临前所未有的挑战和机遇,传统的电力网络已经难以满足这些发展要求。现在建设更加安全、可靠、环保、经济的
多年来,恶性肿瘤一直高居十大死因的榜首。化疗是恶性肿瘤治疗最重要最有效的方法,然而多种原因可以导致肿瘤化疗的失败。其中肿瘤细胞对抗癌药物产生药物抗性,也就是多药耐药性
近年来,新的结构器件和材料的不断产生促使电力电子技术得到了大力发展,在各个行业中得到了广泛的应用。由于这些非线性电力电子器件大量接入电网,产生了大量谐波污染电网,同
本实验室前期研究揭示,c-Jun亮氨酸拉链结合蛋白(c-Jun leucine zipper interacting protein,Jlip)可以caspase-3依赖的方式调控转录因子激活蛋白-1(AP-1)的活性,同时,Jlip通过与