论文部分内容阅读
人机交互在现代社会越来越受关注,让计算机识别人类情感状态是实现智能互动的基础。语音是人类交往过程中信息交流、传递情感最自然有效的手段。语音情感识别研究不仅积极推进多学科交叉研究,更在人机交互等领域有着广泛的应用前景。
论文基于高斯混合模型对语音情感识别进行研究,总结了语音情感识别研究的发展趋势,深入分析了常用的情感特征参数及参数降维方法,通过改进高斯混合模型解决不同的问题,实现了语音情感识别效果的改善。
论文的主要工作和创新点如下:
(1)录制了一个汉语情感语音数据库,其中包含了高兴,悲伤,愤怒,害怕和中性五种不同的情感。经过实验证明,该数据库能够胜任语音情感识别的研究任务,为后续的语音情感识别研究提供了保障。
(2)针对高斯混合模型在训练数据不足、特征空间维数超过一定限度情况下性能受到较大影响的问题,引入多重判别分析对原始特征空间降维,同时有效的减少自由参数的数目,并在模型训练中引进Figueiredo-Jain算法解决了高斯分量个数的初始化难题。基于改进高斯混合模型的分类器取得了较好的识别效果。
(3)研究了高斯混合模型在样本有限情况下出现过适应的情形,引入基于Watson和Tellegen情感模型的距离度量,根据距离度量计算损失函数进行间隔缩放,并利用半定规划解决间隔缩放优化问题,增强了模型的泛化能力,有效改善了训练数据和测试数据存在统计失配时的分类识别性能。
(4)深入研究高斯混合模型处理不同长度时间序列的分类识别问题,针对它不能胜任存在混淆类或模型交叉的情形,引入支持向量机构造分类器,两者结合形成混合模型。以特定类高斯混合模型为基础构建改进的高斯混合模型,可以将不同长度时间序列转换成固定维数的得分向量。通过实验比较其性能,取得良好的效果。