论文部分内容阅读
随着信息技术的发展和人机交互研究的深入,实现计算机智能识别人类情感变得越来越重要,它也是实现人工智能的基础。语音信号是人与人之间交流的重要方式之一,它的作用不仅仅是传递语义,而且它还承载了说话者的个人情感特征。语音情感识别是一个涉及多学科交叉的研究领域,它在实际的生产生活中具有广泛的应用前景。 本文主要对基于核方法模型的语音情感识别进行了研究,回顾了语音情感理论的研究历程和发展历程,构建了汉语语音情感库,分析了常用的语音情感特征和降维方法,并且将改进的核方法用在情感识别当中,提高了情感识别的准确度。 论文的主要工作和创新点如下: (1)简述了语音情感识别的研究背景和研究意义,对情感的定义、语音的产生过程、以及常用的情感特征和识别模型等进行了概括和总结。 (2)录制了实验室的五种基本情感的汉语情感语音库,其中包含了愤怒、害怕、悲伤、中性、高兴五种情感,并经过听辨实验保证了数据的可靠性和有效性,该语音库为后续的实验提供了实验素材。对语音数据进行了预处理,提取了情感特征,包括能量、基音频率、Mel频率等参数,组成了情感特征矢量,用于后续的情感识别实验中。 (3)针对一般的主元分析只能解决线性可分的样本分类问题,引入核函数变换,将数据映射到高维空间后再进行主元分析,提高了识别效率;由Fisher线性鉴别分析的原理,引入了典型相关分析(CCA)和核主元分析相结合的方法解决类内散度矩阵奇异的问题,实验证明该方法对于情感识别具有良好的识别效果。 (4)研究了支持向量机与核方法相结合的语音情感识别,将核方法应用到支持向量机上能够使分类器的性能更加强大。由于奇异或者含有噪声的样本可能会影响超平面方程的训练,出现过拟合的情况,通过PIM(partition index maximization)训练算法引入模糊因子,改进基于核方法的支持向量机,将PIM-FSVM应用到情感识别之中,从而减小过拟合的发生概率,改善了分类器的性能。 (5)由于核函数的形式对于情感识别的有着很大的影响,因此针对高斯径向基核函数,引入评判标准,根据样本训练得到不同参数的核函数,从而提高分类性能。引入多核技术,针对L1 MKL存在的不足,通过利用松弛因子构建软间隔的多核(MKL)的目标函数,采用迭代算法求解组合系数和超平面方程。同时提出了将上述两种方法结合,将训练出来的高斯核函数用于构建MKL的基核,用于语音情感识别中,对比实验验证了该算法的良好效果。