基于深度学习的语音情感分类器研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:gnbvbklvcbc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音情感识别技术是语音信息处理和人机交互领域的研究热点之一,它通过分析和识别语音信号中情感信息来判断说话人的情感状态,使机器具备与人类一样的情感感知和处理能力。研究者利用传统机器学习作为分类器,构建起语音情感识别系统。近年来,深度学习被引入到语音情感识别处理中,提高了语音情感识别的识别性能。因此,研究识别性能更优的基于深度学习的语音情感识别模型对促进语音情感识别领域的发展具有重要意义。相比于传统的机器学习方法,基于深度学习的语音情感识别算法在识别性能上得到了较大的提升,但依旧面临着巨大挑战:域不匹配问题。由于数据采集方式不同、说话人不同等影响,训练集(源域)和测试集(目标域)可能存在数据分布不一致,造成模型的泛化性能较差;标签数据稀缺。基于深度学习的语音情感识别模型的训练是一个监督学习过程,模型中大量权重参数的优化更新依赖于标签数据量,标签数据稀少的训练集容易引起模型过拟合问题;模型复杂度高。深度学习模型存在大量的浮点运算,且需要大量内存空间存储模型参数,增加了深度学习模型部署到计算能力和存储资源受限的移动平台的难度。针对上述问题,本文通过域对抗训练方法减少源域和目标域数据在特征空间中的分布差异,缓解域不匹配问题;利用深度半监督学习模型从标签和无标签数据中学习数据的固有内部结构分布和类别信息,减少对标签数据依赖;同时,通过二值化函数压缩深度学习模型,降低复杂度。主要研究内容和贡献包含以下几个方面:(1)域对抗神经网络(DANN)能减少源域与目标域数据在特征空间的分布差异,使模型学习到的特征与域类别无关,但是这些特征只是数据在特征空间的映射,容易受输入扰动影响。本文提出两种新的域自适应模型,即广义域对抗神经网络(GDANN)和类别对齐广义域对抗神经网络(CGDANN)。这两种模型在DANN基础上融合变分自编码关注学习特征分布的优点,将变分自编码中变分推导器作为模型的特征生成器,缓解域类别无关特征受输入数据扰动影响,增强模型的泛化性能。与GDANN不同,CGDANN利用额外目标域标签数据进行类别对齐,使特征的分布贴近目标域类别分布特性。从实验结果看,GDANN和CGDANN的泛化性能得到了提升。(2)为减少模型训练对标签数据的依赖,本文提出基于半监督对抗变分编码(SSAVAE)的语音情感识别模型,该模型包含生成网络和变分推导网络,能从标签和无标签数据中学习数据固有特征和类别信息。SSAVAE根据数据有无标签分两种情况:对于标签数据,输入数据和标签作为可观察向量由隐含特征向量生成,其后验概率由变分推导网络学习得到;对于无标签数据,标签信息作为隐含向量,数据由隐含特征向量和标签向量通过生成网络生成,其联合后验概率由变分推导网络学习得到,这两种情况共享隐含特征向量。SSAVAE依据联合目标函数进行参数优化更新,由于特征向量与标签向量满足独立分布,标签的后验分布概率可用于情感分类。SSAVAE利用生成对抗网络直接拟合特征向量的概率分布,减少特征向量分布对数据的依赖,提高了特征的表征质量。实验结果表明,SSAVAE优于基准半监督学习方法,甚至达到监督学习级别的识别性能。(3)提出了基于半监督生成对抗网络(SSGAN)的语音情感识别模型,该模型扩展生成对抗网络中判别器的分类类别,使SSGAN不仅能学习数据分布概率,还能进行情感识别,减少模型训练依赖于大量的标签信息。当数据出现微小扰动而处于对抗方向时,模型可能会得到错误分类结果。针对这个问题,本文提出平滑化半监督生成对抗网络(SSSGAN)和虚拟平滑半监督生成对抗网络(VSSSGAN),通过对抗训练对对抗方向进行平滑,使对抗样本具有正确的标签,提高模型的鲁棒性。其中VSSSGAN利用虚拟标签进行数据平滑,减少对标签数据的依赖。实验结果表明,平滑化半监督学习的鲁棒性得到了提高。(4)针对基于深度学习的语音情感识别模型面临模型复杂度高的问题,本文提出一种基于二值化网络压缩的语音情感识别模型,即二值化卷积递归神经网络(BCRNN)。BCRNN通过二值化函数将卷积递归神经网络(CRNN)中实数型输入和权重值转化为由比特位-1/+1表示,减少模型存储对内存空间的需求,且复杂的卷积运算由速度更快的异或运算代替,降低模型计算量。为了缓解二值化处理引起的信息损失,模型引入比例因子,使二值化值能近似对应的实数值。理论上分析可知BCRNN的存储空间是CRNN的1/8。实验结果表明,BCRNN在保证良好的识别性能的前提下,获得了较大的模型压缩率。
其他文献
随着我国现代化进程的日益发展,城市聚集了大量人口、财富和基础设施,当遭受地震、海啸等极端破坏的情形下,会造成巨大的人员伤亡和财产损失。供水管网系统是城市生命线工程的重要组成部分,当其遭受破坏丧失供水功能时,不仅影响居民的基本生活需求,而且对于灾后重建及社会生产也会产生负面影响。因此,供水管网的安全性和可靠性是城市灾害防御能力的重要反映,评估供水管网的脆弱性,发现脆弱部分,进而对脆弱部分进行改造,对
从钙钛矿作为光电材料所具有的光学和电学上的理化性质出发,分析钙钛矿太阳能电池(PSC)的自发明以来经历的研究历程。根据钙钛矿电池的基本结构,阐述一种新型太阳能电池的光电转换过程,异质结型PSC在稳定性和使用寿命、成本控制等方面需要改善的问题,同时基于这些问题综述目前部分中国研究者对于PSC的研究。
不断增长的能源需求和日益严重的气候变化推动了可再生资源的发展,开发以生物质和CO2为原料合成化学品的工艺成为热点,近些年得到快速发展。但是,目前这些工艺路线存在产物收率低、生产成本高、反应效率低等问题,制约了其工业化进程。通过概念设计和工艺模拟建立这些工艺路线的生产模型,检验其技术可行性,进而通过技术经济分析和生命周期评价等方法探索其能源消耗、经济成本和温室气体排放等方面的优势与不足,识别发展过程
NAD+依赖的氧化还原酶具有高催化活性、区域选择性和立体选择性,是制药工业、精细和专用化学品领域生产手性化合物的研究及开发热点。基于序列和结构信息的理性设计以及定向进化,已成为酶工程领域的核心技术。学位论文围绕酶催化循环过程描述:底物迁移和识别、催化反应和产物释放,开展理性设计苹果酸酶、丙氨酸脱氢酶和meso-2,3-丁二醇脱氢酶的研究工作,结果如下:(1)以苹果酸酶(EC 1.1.1.40)为对
随着海洋资源的开发和沿海水域航运的发展,船舶与海上及近岸结构物间碰撞的风险日益增长。船舶碰撞不仅会导致巨大的经济损失甚至人员伤亡,还对海洋环境、海洋生态等造成严重危害。浮筒链式防撞系统作为一种典型的浮式防撞系统,既能保证被撞结构物的安全,同时兼具船舶友好性、水深和地基适应性强、构造简单方便等优势,极具应用前景。但浮式防撞系统提出的较晚,相关研究非常有限,尤其是关于其海上生存能力、拦防船舶机理、防撞
混凝土面板堆石坝(简称面板坝)具有整体断面小、施工进度快和复杂地形适应性好等显著优点,深受坝工界青睐,已成为高坝建设的首选坝型。近年来,随着国家“西部开发”、“一带一路”等重大战略的深入推进,一批世界级高坝大库正紧锣密鼓地规划筹建,如古水、拉哇、大石峡、茨哈峡等。但这些高坝地处我国西部强震区,设防烈度高(不低于8度)。大坝建成后将长期运行(甚至超百年),服役期遭遇强震的概率较高,存在强震破损风险。
预应力自复位(Post-tensioned self-centering,以下统称PTSC)混凝土框架是预制装配式建筑的一种,它采用无粘结预应力筋将预制梁柱紧压在一起,梁柱接触面在受拉方向不采取任何约束方式,使得构件可以在节点转动过程中相互分离,节点的非线性变形集中在梁柱交界处产生的张开角中,避免了传统现浇节点中受拉纵筋的屈服和梁端塑性铰的形成。采用附加的阻尼装置满足结构的耗能需求,从而将非线性滞
随着大数据时代的到来,人们不再为数据匮乏而感到困扰,反而越来越关注数据的质量问题并开始探讨从大量数据中提取最有价值信息的方法设计与理论研究。作为该系列研究的重大研究课题之一,异常检测侧重于检测和识别数据集中与大部分样本存在显著差异的异常样本,已成为在网络安全的入侵检测、机器设备的故障检测、医疗图像的癌变细胞识别、金融行业的信用卡欺诈检测等多个领域的热门研究话题。目前大多数的异常检测研究专门针对某个
众所周知,传统光学成像极易受到周围条件以及成像距离的影响。针对这种情况,上世纪八十年代在量子物理和成像技术的结合下衍生出了一种新型的成像方式,即主动照明关联成像,也称鬼成像。与传统光学成像的不同之处在于,它并非利用探测器直接对物体进行成像,而是通过二阶或者高阶关联的方法在不含物体的光路中重构目标图像。在成像过程中,接收物光的桶探测器只统计光强值,并不需要进行空间分辨测量,而与之关联的另一路光束在空