【摘 要】
:
近年来,大量的研究者对文字、语音以及面部表情做了情感分析的研究。由于人类的情感是非常复杂的,且表达情感的方式也十分多样。所以同时考虑不同模态的特征,对于准确判断情感的倾向来说就显得尤为重要。现如今的研究大多停留在单模态或双模态的情感识别,存在着准确率不高的情况。所以本文为了解决该问题,针对文本、音频、视觉这三个模态进行了多模态情感识别的研究。本文的创新点主要有以下两点,总结如下:
①本文提出了一个基于信息增强的多层次上下文多模态情感识别模型IEF-BiGRU。该模型使用了信息增强的方式来放大多模
论文部分内容阅读
近年来,大量的研究者对文字、语音以及面部表情做了情感分析的研究。由于人类的情感是非常复杂的,且表达情感的方式也十分多样。所以同时考虑不同模态的特征,对于准确判断情感的倾向来说就显得尤为重要。现如今的研究大多停留在单模态或双模态的情感识别,存在着准确率不高的情况。所以本文为了解决该问题,针对文本、音频、视觉这三个模态进行了多模态情感识别的研究。本文的创新点主要有以下两点,总结如下:
①本文提出了一个基于信息增强的多层次上下文多模态情感识别模型IEF-BiGRU。该模型使用了信息增强的方式来放大多模态在融合过程中更重要的模态的信息,且使用了循环神经网络来提取多模态融合前后不同的上下文特征。该模型在一定程度上解决了传统的基于级联的多模态特征融合方法可能出现维度爆炸,未考虑不同模态重要程度不一样的情况,以及过往的模型中忽略了多模态融合前后具有不同上下文信息的问题。与级联的多模态特征融合方法相比,IEF-BiGRU模型在CMU-MOSI和IEMOCAP数据集上准确率和F1分数都有所提升。其中在IEMOCAP数据集上音频和视觉模态融合的情况下准确率提升了15.78%,F1分数提升了18.76%。
②本文提出了基于注意力机制和聚合机制的多模态情感识别模型IEFATF-BiGRU。该模型能够放大与目标话语更相关的上下文的贡献,且能够将不同层次不同粒度的信息聚合到一起,相互补充。该模型改进了IEF-BiGRU模型在提取上下文特征时忽略了目标话语的上下文与其相关程度不同的情况,以及信息在从低层次到高层次的训练过程中可能出现损失的问题。实验结果表明,与IEF-BiGRU模型相比,IEFATF-BiGRU模型在CMU-MOSI和IEMOCAP数据集上准确率和F1分数都有所提升。其中在CMU-MOSI数据集上三模态融合的情况下,准确率从81.52%提升到了83.06%,F1分数从81.42%提升到了83.02%。同时,IEF-BiGRU模型和IEFATF-BiGRU模型优于现有的几种先进模型,具有更好的情感分类效果。
综上,通过实验和分析,验证了本文所提出模型的有效性。
其他文献
突发灾难发生后,受灾区域的一些基础服务设施,例如道路、医院等,可能会遭受严重破坏。由于突发灾难下伤员数量激增,远远超出现存医疗设施的承受能力,大量伤员无法入院治疗,可能导致伤员死亡率增加甚至造成现有医疗服务系统瘫痪。因此,突发灾难下迅速的应急医疗响应决策对提高伤员存活率具有重要的意义。
针对突发灾难下应急救援工作,以灾后应急医疗设施选址与分配问题作为研究主体,在现存医院的基础上选择要新建的临时应急医疗设施的位置、将有限数量的救护车分配至应急医疗设施以及将受灾点伤员分配至应急医疗设施进行统一决策,
语义分割旨在对图片所有像素点进行类别标记,随着深度学习与高精标记数据集的快速发展,该视觉任务取得了重大进展。然而,繁琐耗时的人工标记成本极大限制了样本数量与识别类别种类,阻碍了语义分割的实际应用。因此,近几年基于弱监督的语义分割得到了广泛关注。给定图片级别的类别标签(即只标明图片含有的类别),CAM(类别响应图,ClassActivationMaps)常用于初始图片分割(也称初始种子),其分割区域通常集中于小且稀疏的显著判别域,而非完整的物体对象。为了提升分割性能,本文着眼于初始种子的区域扩张。
频发的自然灾害对人类社会造成了巨大的损失。随着人类社会的快速发展,人们在抗灾救灾方面的意识也越来越强烈,关于应急管理的政策和研究也受到了广泛的关注。面对难以预测的自然灾害,最高效的应急管理措施就是灾后快速地展开救援活动。而灾后救援活动的首要任务就是为灾民提供安全的应急避难场所和生存所需的资源。因此,立足于自然灾害背景,对灾后应急避难场所选址与资源分配问题进行探索研究具有重要的现实意义。
基于自然灾害下应急避难场所选址与资源分配问题的特性,针对现有研究的不足,提出了根据灾民的受伤程度将灾民划分为不
滑坡灾害是一种极具破坏性的地质灾害,严重威胁人们的生命财产安全,造成全球生态环境的破坏和资源的浪费。因此,深入对滑坡预测及其控制系统的研究对降低滑坡灾害的影响具有重要意义。
滑坡演变过程受多种因素影响,具有很强的非线性和不确定性。人工神经网络可以避开复杂的机理分析,建立系统的黑箱模型。本文以三峡库区白水河和石榴树包滑坡为研究对象,将神经网络引入滑坡的预测和控制系统研究中。首先,采用Elman动态神经网络建立滑坡单步预测模型,利用滑坡时间序列数据特点改进BP算法,降低模型训练的时间复杂度,以较高的
传统巴甫洛夫联想记忆实现的学习和遗忘功能,分别对应于经典条件反射中的强化和消退定律。实际上,经典条件反射除了强化和消退定律外,还包含了泛化和分化定律。在传统的巴甫洛夫联想记忆基础之上加入泛化和分化功能,可以更加充分的模拟大脑的联想记忆过程,为类脑系统的进一步发展提供参考。
本文设计了基于忆阻的联想记忆泛化和分化电路,电路经过最初的联想记忆学习之后可以对某种条件刺激做出反应,然而当相似的条件刺激作用于电路时,电路会做出类似的响应,这就是泛化现象。为了使神经网络电路能够充分的认知这两种相似的刺激并最
由于数字图像数量的快速增长,基于内容的图像检索已成为管理图像数据库的强大工具。但是,随着图像数据库的扩大,图像检索系统对存储和计算资源的需求随之增加。幸运的是,随着云计算的繁荣,中小型企业开始在云平台上构建和维护大型、经济、高效的图像检索系统。尽管云平台提供了便捷的存储、计算和通信服务,但它们带来了新的隐私问题。在加密图像上进行检索是一种保护用户隐私的技术,并且在过去十年中学者们已经进行了广泛的研究。尽管一些方案已经被提出并可以在一定程度上保护用户隐私,但是它们仍然具有一些缺点。首先,在实践中,仅图像的部
近年来,大学生心理健康日益成为高等学校乃至全社会关注的一个问题。在具有心理健康问题的大学生群体中,学校特别关心大学生心理危机个体,即有较高风险罹患心理疾病的大学生个体。这类学生可能会出现严重心理障碍,或者因为心理问题实施自残、伤人甚至自杀行为,从而严重影响学生的学习、生活和人身安全。
心理量表是目前普遍使用的心理健康检测工具,然而直接使用量表的传统计算方法识别心理危机个体存在许多不足,导致较高的假阳率和假阴率。本文提出了一种基于图神经网络的心理危机个体识别方法,以弥补传统识别方法的不足。本文的主
近年来,移动互联网、边缘计算、物联网等技术的发展和成熟催生了大量新的移动设备和移动应用,如有健康监测功能的可穿戴设备、移动电子商务、网络手游、短视频等。这些新兴的移动应用有着更高的数据存取需求和更大的计算量,同时表现出新的数据存取模式和数据分布特征。小文件随机读写操作占到这类移动应用中数据存取的很大部分,这种大量的细粒度存储需求导致基于块设备建立的移动设备存储系统不足以满足这类应用的存储需求。研究表明,移动设备性能瓶颈由原来的网络和处理器已转为现在的存取能力。新兴的非易失性内存(NVM)具有可字节寻址、高
随着数字图像技术的发展和多媒体应用的普及,图像处理和传输变得越来越重要。人们对图像的传输和存储有了更高的要求,对图像的质量要求也逐渐提高,例如远程医疗、航空航天、多媒体教学和视频安防等领域。图像压缩编码在图像处理中起着至关重要的作用,此对图像压缩的相关技术和科研工作带来了全新的挑战。几乎所有多媒体应用都追求具有更高压缩率,更低计算成本和更好视觉质量的图像压缩技术,这也是图像压缩的三个关键指标。
JPEG-XR(旧称HD Photo)是一种连续色调静止图像压缩算法,是在2007年由联合图像专家小组
图像检索具有重要的应用价值和研究意义,但也面临检索速度提升、结果排序准确性等诸多现实挑战。哈希技术通过将高维特征映射到低维二值空间,可有效加快距离计算,是目前提升检索速度的重要手段。此外,深度学习能够在一定程度上缓解图像底层视觉信息与高层语义信息之间的“语义鸿沟”。因此,将深度学习和哈希方法结合应用于图像检索具有重要的研究价值和意义。
本文研究基于深度学习和哈希技术的多标签图像检索,针对目前多标签检索领域存在的3个研究难题,分别对其进行深入研究并提出相应解决策略。本文创新点和主要内容如下: