基于深度学习的语音情感识别研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:zj149099548
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音情感识别是指通过语音来识别说话人的情绪状态,是语音技术领域最具挑战的任务之一。而随着语音交互技术的广泛应用,能使机器更人性化的语音情感识别技术有着广阔的应用前景和商业价值。近年来随着深度学习技术的发展,语音情感识别领域也出现了许多成果。然而即便如此,现阶段的语音情感识别技术仍面临许多困难,例如高维度情感特征难以人工提取、情感语音数据量小且标注难度大、深度学习模型受语义语种信息的干扰等,导致模型识别准确率差且跨语种表现差。因此本文为了提高情感识别的准确率和跨语种跨数据集的表现力,开展了以下工作:首先,基于情感信息的高维特性,本文在语音声谱图的基础上提出一种符合高斯分布的情感特征——平滑实谱图,解决了传统声谱图中的零值问题,并去除数据中异常值和极端值的影响,提高语音情感识别性能。其次,为了提高模型从低维特征中提取高维情感信息的能力,本文提出了一种基于注意力机制的CNN-RNN模型(ACRNN),结合CNN的特征提取优势、RNN的序列任务优势以及注意力机制的局部关注优势,有效提高识别准确率。再次,为了克服小数据量限制并去除语义等信息的干扰,以提高模型识别准确性和跨语种跨数据集有效性,本文提出了一种对抗语义擦除方法,在小数据量的限制下,利用现有大数据量的语音识别任务成果进行辅助,将语义信息从语音特征中进行擦除,提高模型识别效果和跨语种有效性。最后,本文提出一种基于多尺度卷积的多模态情感识别方法,结合语音和文本情感模态信息,提高情感识别准确率。另外针对多模态情感识别系统在实际使用场景中常遇到的模态缺失问题,本文提出了一种模态缺失自适应方法,提高了系统在实际应用场景中的鲁棒性和实用性。
其他文献
当今世界,由于信息时代的到来,收到大量有用信息的同时也包含大批量的冗杂信息,影响人们对事物的正确判断。在这种情况下,如何在大批量的信息中去除冗杂信息,挑选出真正对人
有机太阳能电池因廉价、柔性、可以卷对卷制备、质地轻薄等独特的性质引起了科学家高度的关注。经过科学家的研究和探索,近几年太阳能电池的功率转换效率(PCE)得到了迅速地提升。目前基于单异质结的太阳能电池PCE已经可以达到16%以上,叠层有机太阳能电池PCE已突破17%。这使人们看到有机太阳能电池未来产业化的可能性。同时加速了有机光伏材料的研究与开发,近几年发展起来的受体-给体-受体(A-D-A)型稠环
近年来,环境激素类药物污染物在饮用水中不断被检出。此类污染物在饮用水氯化消毒过程中会产生不同的氯化消毒副产物,很可能比母体化合物具有更大的生物毒性,从而对人类健康
轨道角动量键控(OAM-SK)是利用携带轨道角动量的涡旋光束达到信息传输目的的一种光通信方式,将涡旋光束的不同OAM模式与数字信号进行一一对应实现信号调制。卷积神经网络(CNN
低空数字探空仪能够测量低空大气垂直分布的温度、相对湿度、大气压力等气象参数,计算出低空大气折射率,为低空大气波导诊断系统提供重要数据参数。低空大气波导诊断系统能有
相变材料作为一种储热量较大的材料,可以解决太阳能的热能供给和需求失配的矛盾。众多相变材料中以石蜡最为常用,它具有相变潜热高,价格低廉等优点;但是也存在导热性差和固-液相变时易发生泄露等缺陷。将石蜡进行微胶囊化处理,可以很好地解决这些问题。本文针对木材太阳能干燥中的储热场合,选取58#固体石蜡为芯材,三聚氰胺-尿素-甲醛(MUF)树脂作为壁材,制备了石蜡/MUF树脂微胶囊。拟将此微胶囊用于上述场合的
点特征广泛用于基于特征的视觉同时定位与地图重建(visual simultaneous localizat ion and mapping)或者视觉里程计(visual odo metry)系统,但是线特征却很少用在这些系统,
习近平总书记指出“土地流转和多种形式规模经营,是发展现代农业的必由之路”。2013年以来,启动的土地确权为农村土地流转创造了良好条件。2016年以来,实行的农村土地“三权
近年来,以机器学习为代表的人工智能技术已被成功地应用到计算机视觉、语音处理、自然语言处理等多个领域。同时,随着应用场景的日益复杂,人们往往需要使用海量的训练数据与
航空发动机长期工作于高温、高压、强振动的恶劣环境,其控制系统的执行机构与传感器成为故障的敏感多发部位,从而严重影响整个航空发动机运行的安全性。因此,针对航空发动机