论文部分内容阅读
语音情感识别技术是语音信息处理和人机交互领域的研究热点之一,它通过分析和识别语音信号中情感信息来判断说话人的情感状态,使机器具备与人类一样的情感感知和处理能力。研究者利用传统机器学习作为分类器,构建起语音情感识别系统。近年来,深度学习被引入到语音情感识别处理中,提高了语音情感识别的识别性能。因此,研究识别性能更优的基于深度学习的语音情感识别模型对促进语音情感识别领域的发展具有重要意义。相比于传统的机器学习方法,基于深度学习的语音情感识别算法在识别性能上得到了较大的提升,但依旧面临着巨大挑战:域不匹配问题。由于数据采集方式不同、说话人不同等影响,训练集(源域)和测试集(目标域)可能存在数据分布不一致,造成模型的泛化性能较差;标签数据稀缺。基于深度学习的语音情感识别模型的训练是一个监督学习过程,模型中大量权重参数的优化更新依赖于标签数据量,标签数据稀少的训练集容易引起模型过拟合问题;模型复杂度高。深度学习模型存在大量的浮点运算,且需要大量内存空间存储模型参数,增加了深度学习模型部署到计算能力和存储资源受限的移动平台的难度。针对上述问题,本文通过域对抗训练方法减少源域和目标域数据在特征空间中的分布差异,缓解域不匹配问题;利用深度半监督学习模型从标签和无标签数据中学习数据的固有内部结构分布和类别信息,减少对标签数据依赖;同时,通过二值化函数压缩深度学习模型,降低复杂度。主要研究内容和贡献包含以下几个方面:(1)域对抗神经网络(DANN)能减少源域与目标域数据在特征空间的分布差异,使模型学习到的特征与域类别无关,但是这些特征只是数据在特征空间的映射,容易受输入扰动影响。本文提出两种新的域自适应模型,即广义域对抗神经网络(GDANN)和类别对齐广义域对抗神经网络(CGDANN)。这两种模型在DANN基础上融合变分自编码关注学习特征分布的优点,将变分自编码中变分推导器作为模型的特征生成器,缓解域类别无关特征受输入数据扰动影响,增强模型的泛化性能。与GDANN不同,CGDANN利用额外目标域标签数据进行类别对齐,使特征的分布贴近目标域类别分布特性。从实验结果看,GDANN和CGDANN的泛化性能得到了提升。(2)为减少模型训练对标签数据的依赖,本文提出基于半监督对抗变分编码(SSAVAE)的语音情感识别模型,该模型包含生成网络和变分推导网络,能从标签和无标签数据中学习数据固有特征和类别信息。SSAVAE根据数据有无标签分两种情况:对于标签数据,输入数据和标签作为可观察向量由隐含特征向量生成,其后验概率由变分推导网络学习得到;对于无标签数据,标签信息作为隐含向量,数据由隐含特征向量和标签向量通过生成网络生成,其联合后验概率由变分推导网络学习得到,这两种情况共享隐含特征向量。SSAVAE依据联合目标函数进行参数优化更新,由于特征向量与标签向量满足独立分布,标签的后验分布概率可用于情感分类。SSAVAE利用生成对抗网络直接拟合特征向量的概率分布,减少特征向量分布对数据的依赖,提高了特征的表征质量。实验结果表明,SSAVAE优于基准半监督学习方法,甚至达到监督学习级别的识别性能。(3)提出了基于半监督生成对抗网络(SSGAN)的语音情感识别模型,该模型扩展生成对抗网络中判别器的分类类别,使SSGAN不仅能学习数据分布概率,还能进行情感识别,减少模型训练依赖于大量的标签信息。当数据出现微小扰动而处于对抗方向时,模型可能会得到错误分类结果。针对这个问题,本文提出平滑化半监督生成对抗网络(SSSGAN)和虚拟平滑半监督生成对抗网络(VSSSGAN),通过对抗训练对对抗方向进行平滑,使对抗样本具有正确的标签,提高模型的鲁棒性。其中VSSSGAN利用虚拟标签进行数据平滑,减少对标签数据的依赖。实验结果表明,平滑化半监督学习的鲁棒性得到了提高。(4)针对基于深度学习的语音情感识别模型面临模型复杂度高的问题,本文提出一种基于二值化网络压缩的语音情感识别模型,即二值化卷积递归神经网络(BCRNN)。BCRNN通过二值化函数将卷积递归神经网络(CRNN)中实数型输入和权重值转化为由比特位-1/+1表示,减少模型存储对内存空间的需求,且复杂的卷积运算由速度更快的异或运算代替,降低模型计算量。为了缓解二值化处理引起的信息损失,模型引入比例因子,使二值化值能近似对应的实数值。理论上分析可知BCRNN的存储空间是CRNN的1/8。实验结果表明,BCRNN在保证良好的识别性能的前提下,获得了较大的模型压缩率。