论文部分内容阅读
语音情感识别作为情感计算的重要方向,能有效促进自然、和谐的人机交互,因此受到越来越多研究者的关注。近几十年语音情感识别的研究取得长足进展,但是仍然存在以下问题:第一,语音情感模型定义的不确定性。目前有两种主流的语音情感模型,一种是离散类别的情感模型,另一种是连续型的维度情感空间模型。研究者对于不同的语音情感库,可能会采用不同的语音情感模型。如何根据具体问题,选择合适的语音情感模型进行情感计算是语音情感识别面对的挑战之一;第二,迄今为止,有效的语音情感识别特征是研究者提高语音情感识别性能的关键。随着机器学习的发展,新的机器学习算法不断被提出,如何通过新的机器学习算法提取更有效的语音情感识别特征,使得语音情感识别性能得到进一步的提高。本文以上述两个问题为研究背景,以提高语音情感的识别性能为目的,针对基于特征学习的语音情感识别方法进行了研究。本文的主要研究内容如下:(1)提出了一种基于多核学习的多尺度声学特征融合算法,并在此基础上为解决特征在训练集和测试集上分布的不匹配,提高特征识别性能的鲁棒性,提出了基于多尺度声学特征融合的迁移多核学习语音情感识别算法。语句尺度声学特征是语音情感识别中最常用的特征之一。但是较语句尺度声学特征,次语句尺度声学特征可能会为语音情感识别提供额外的语音情感识别信息。目前针对多尺度声学特征的语音情感识别,大多采用特征级联或者决策融合的策略。这些特征融合策略未能充分考虑到多尺度声学特征之间的内在联系,导致不同尺度声学特征的语音情感信息不能有效的在语音情感识别中得到应用。为有效融合不同尺度声学特征的情感信息,在多核诱导的希尔伯特空间中,多核学习的特征融合算法通过欧式距离去研究不同尺度声学特征识别性能的一致性和独特性。进一步,为了同时解决多尺度声学特征在训练集和测试集上分布的不匹配,提出了融合多尺度特征的迁移多核学习算法(Transfer Multiple Kernel Learning with Multi-level Features Fusion,简称MFF-TMKL)用于语音情感识别。该算法包括两个约束项:首先为融合多尺度声学特征的情感信息,在多核诱导的希尔伯特空间,通过加权的欧氏距离研究多尺度声学特征识别性能的一致性和独特性;其次,为减少训练和测试集上多尺度声学特征分布的不匹配,根据多核学习的几何解释,将最大均值差异从单核空间扩展到为多核空间;最后,利用这两个约束项联合优化经典多核学习的目标函数。为验证算法的有效性,对任一语句分别进行了起始/结束和清音/浊音的分割,并在Aibo语音情感语料库上的Ohm和Mont数据集上验证所提MFF-TMKL算法的有效性。(2)提出了一种基于多标签深度神经网络的维度语音情感识别算法。现有维度语音情感识别算法可能存在以下不足:即忽略语音情感特征在不同维度情感标签上识别性能的差异;基于线性、浅层特征的语音情感识别算法往往不能有效提取语音特征中说话人的情感信息;语音情感特征学习或者降维往往是语音情感识别的预处理步骤,未能有效耦合语音情感特征学习和其分类模型。为避免上述可能存在的问题,本文提出了一种基于多标签深度神经网络的维度语音情感识别算法。该深度网络的学习包含两步:首先,为利用维度情感标签之间的相关性,在学习深度神经网络的顶层特征时,将图匹配同时应用于多个维度情感标签。进一步,为避免图匹配只能提取与维度情感标签相同维度的深度特征,将深度特征学习与具有变换矩阵的最小二乘回归模型进行耦合;其次,考虑到相同语音情感特征对不同维度情感标签具有识别性能上的差异,构建指定标签学习层,即将图匹配和最小二乘回归用于指定维度情感标签的深度特征学习,同时为利用不同维度情感标签之间的相关性信息,提高深度神经网络对指定情感标签的识别性能,使指定标签学习层的网络参数和多标签深度神经网络顶层的参数之间具有弱分享性质。为验证该算法的适应性,仿真实验分别在2D(Arousal-Valence)和3D(Arousal-Valence-Power)的维度情感空间上进行,并选择AVEC2012和IEMOCAP情感库中的语音数据来验证所提算法的有效性。(3)提出了一种基于递归型深度受限波尔兹曼机的语音情感识别算法。当语音情感识别的对象是包含情感变化的长时语音段落,由于语音情感特征向量的长时统计特性,语音情感识别算法往往不能及时跟踪或识别变化的语音情感,产生情感识别延迟的问题。实际上,上下文信息对说话人的情感状态变化有重要影响。因此如何利用与情感相关的上下文信息进行特征学习一个有待解决的关键问题。另一方面,如何有效学习监督型的深度网络也是进行深度特征学习的研究热点之一。结合上述两个热点问题,为有效利用监督型的深度网络动态学习情感变化的特征,提出了一种基于递归型深度受限波尔兹曼机的语音情感识别算法。在基于语音端点检测技术的基础上,该算法利用两个高斯伯努利条件受限玻尔兹曼机分别逐段提取训练集上声学特征和情感标签的高阶情感统计信息,然后用递归神经网络动态映射这两种高阶情感统计信息之间的相互关系,达到深层挖掘声学特征和情感标签之间实际关系的目的,提高模拟上下文情感变化的准确性。搭建该深度网络时,将声学特征条件受限玻尔兹曼机,递归神经网络和情感标签条件受限玻尔兹曼机自下而上进行堆叠,并在验证集上微调网络顶层的学习参数。算法的有效性在AVEC2012和IEMOCAP情感语料库上得到验证。(4)本文提出了一种情感数据场中基于蚁群化声学特征的语音情感识别算法。尽管目前的研究工作对情感数据库能够获得比较好的识别率,但是这些研究工作却不能很好的应用到实际生活中的语音情感识别系统。原因有三:第一,在类似于丹麦和柏林情感数据库中,采集的语句都是通过表演的方式获得,而且都属于典型的情感,如喜、怒、惊、悲等等。而现实生活中,情感具有多样性和自发性的特点,产生的情感类别往往不是有限的几种类别;第二,实际生活中,由于情感表达具有时间上的连续性和延续性,因此要求实用语音情感识别系统能对情感变化的长时语音段落进行情感计算,例如在电话服务系统中;第三,目前的语音情感识别算法不能有效利用情感变化的先验信息。这些先验信息会受到说话人的个性或者文化背景的影响,并由带有标签的训练数据所携带。针对上述问题,提出了一种新的基于离散情感模型的语音情感识别算法,该算法用于处理具有自发、非典型情感的长时语音段落。首先,用数据场模拟情感空间,数据场中的每一个数据都用语音情感特征向量表示,并通过数据场定义的势函数刻画不同语音情感特征向量的相互作用。相应的,简单的数据场演变为情感数据场;其次,用群智能化的蚁群模拟长时语音段落不同时间段上的语音情感特征向量,在进行语音情感识别时,利用蚁群搜索策略研究每个人工蚂蚁在情感数据场的运动路径,该路径运动的方向即为对应人工蚂蚁的情感标签。在AVEC2012情感语料库上的实验证明了算法的有效性。