Visual-Aspect Enhanced Sentence Network for Multimodal Sentiment Analysis

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:PLF119
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和智能手机的快速发展,多模态数据(声音,图像和文字)越来越被广泛地使用在社交网络中,并且这一数量在不断地增长。传统社交网络一般是通过文字的形式来实现信息的传递,但随着技术的不断发展,越来越多的人使用视频和图片的方式来表达自己的情感和观点。例如,很多网友在微信朋友圈发布视频动态或者通过文字加配图的形式来分享自己的生活。而这些多模态数据往往所蕴含的情感是非常复杂和多元的,因此分析多模态数据所表达的情感极性成为了当前情感分析领域新的机遇和挑战。以前的情感分析工作大多集中在单个模态的研究上,如文本情感分析主要是挖掘文本所表达的情感极性,但其本质上是一个文本分类任务。此外还有视觉情感分析,即分析图像所表达的情感极性,这种单模态的任务其实也可以被视为图像分类任务。但在多模态的情况下去分析和检测数据所表达的情感极性时,往往需要更加全面综合的考虑。现有的多模态情感分析的主流方法是基于融合机制的,包括早期融合,晚期融合以及中期融合等方式。早期融合又被称为数据级或者特征融合,指的是不同模态的特征被提取后立即被融合到一个共享的语义子空间。晚期融合也叫作决策级融合,它使用不同模态的数据独立地训练分类器来得到多个决策结果,然后通过集成这些结果的方式获得最终的情感标签。对于中期融合来说,常用的方法是在神经网络的中间层通过不同模态的注意力机制去融合相应的特征,最后送入到分类层,这种方法更具有模态间的交互性,往往会取得更佳的效果。另一方面,当前的基于图文的多模态情感分析任务基本上聚焦于Image-Text Pair的数据类型,这类数据往往由一段文本和一张图片构成,图像和文本是对齐的,并且使用的方法也大多是基于融合机制。而对于文档级别的多模态情感分类任务研究较少,即一个文档带有多张图片,这些图片往往相对于文本是稀疏的,同时图像和文本并不对齐,这样的多模态数据在实际生活中的应用也非常广泛。例如现在的在线餐馆评论,食客在书写评论时,除了写一段文字描述对于餐馆的菜品,环境以及用餐的感受外,还会附上相关的图片,这些图片可能是食客拍摄的菜品或者店内环境的照片等,所以分析和处理好图像和文本信息对于文档级的多模态情感分析任务而言是一个关键的问题。在这种任务上的图片往往不表达显著的情感信息,因此本文提出了一种基于门机制和注意力机制的端到端神经网络模型,创新性地使用图像信息作为门控开关去控制文本的信息流,而不是使用传统的融合机制。由于不同的图片表达不同的方面信息(Visual Aspect),这种门机制在本文中被称为Visual Aspect Gate Mechanism。通过这种机制能够增强与Visual Aspect相关句子所表达的情感信息的显著性,而这些相关的句子表达的情感通常对于一篇文档表达的总体情感具有一定的贡献作用。本文的主要贡献有如下三点:·本文提出了一个用于文档级多模态情感分析的新型端到端神经网络模型:该模型创新性地用图像作为门控开关去增强与图像相关的句子表达的情感信息的显著性,同时抑制其它与图像无关的句子信息。这些图像相关的句子情感信息对于文档表达的整体情感极性具有一定的贡献作用。·在两个公开的多模态评论数据集上的实验结果展示了本文提出的模型具有优秀的性能。消融实验清楚地展现了模型的各个子模块对性能提升的贡献。补充实验和分析表明了 Visual Aspect Gate Mechanism的有效性。·可视化分析直观地展示了模型是如何综合利用图像和文本信息去提高整体的分类性能。此外,对错误分类情况的分析提供了一个未来进一步有效提高模型性能的改进方向。本文的模型的大体设计思路和方法如下文所述。考虑到文档是层次化的(词组成句子,句子组成一篇文档),文档中的图片和句子被视为处于同一层级,因为句子往往可以描述一张图片,所以本文提出的模型具有一种分层的结构,以此来适应文档的结构特性。模型首先使用双向的GRU作为词编码器来提取每个词的特征,由于每个词对所在的整个句子的表示的贡献通常是不相等的,一些词语会传递更重要的信息和更丰富的情感,所以本文模型使用一个软注意力机制来为每个词分配权重,最后加权得到每个句子的表示si。对于模型的第二大层级来说,首先是文档中的图像信息部分,本文使用VGG-16卷积神经网络模型来抽取图像的特征,在移除掉该模型的最后一个分类层后,得到一个4096维的高阶的语义特征表示。此外,为了编码句子信息,本文使用两个独立的双向GRU。对于从上一步获得的句子向量si,经过两个独立的双向GRU后,可以获得它们的隐藏状态h1i和h2i。因为经过VGG-16抽取的图像特征维度和句子特征的维度不一致,所以本模型还使用一层带有tanh的非线性激活函数的全连接神经网络(MLP)来将原图像特征映射到和句子特征相同维度的特征空间中,记为lk。接下来是门控的表示:gki=Sigmoid(h1i ☉ ck⊕h1i,首先让句子的编码向量h1i与映射后的图像特征向量ck进行向量元素乘和向量元素加的模态交互,其中向量元素乘能够让句子特征与图像特征进行充分交互,而向量元素加还可以确保文本信息不会因为图像信息的稀疏性而被稀释掉。然后Sigmoid门控函数将交互后的结果限制在0到1之间,再使用该门控gki去控制句子的特征信息流:mki=h2i ☉gki。该门控可以通过学习来计算图像特征与文本特征之间的语义相似性,所以其交互结果可以视作相似度的评分。如果分数趋于0,那么句子si的特征将被抑制,反之,其特征信息可以得到相应的放大。经过这个门控过滤后可以获得过滤后的句子特征mki。此外,一个文档通常包含多张图片(假设为M张图),所以对于文档中的M张图片都使用该门控后就会产生M个不同视觉方面放缩的句子表示mki,k属于1到M,而这M个mki需要汇总为一个最终的视觉方面过滤后的句子表示。因为不同图片蕴含的信息的重要性往往也是不同的,所以这里使用软注意力机制去学习不同图片的权重,然后应用于mki去汇总得到总体的句子表示mi。文档中的L个句子在经过上述的视觉门控单元(Visual Aspect Gate Unit)后,得到L个句子表示向量。一方面由于每个句子所表达信息和情感的重要性也是不同的,另一方面,文档中一些句子没有图像与之对应,然而这些句子又表达了重要的情感信息,所以本文再次应用句子级别的软注意力机制来为每个句子分配不同的权重,然后加权汇总得到最终的文档表示向量,本文称这个注意力模块称为Sentence Later-Attention。最后将得到的高质量的文档表示向量送入一个线性分类层得到最后的情感分类结果。对于实验部分,本文选取了Yelp和Multi-ZOL两个多模态评论数据集,其中Yelp的数据源自美国最大的评论网站上面的五个不同城市的食物和餐馆评论。Mulit-ZOL的数据来源于中文IT网站(ZOL.com)上面的手机评论。然后本文选取了多个主流的文档级多模态情感分析的基线方法作为对比,包括TFN-mVGG,TFN-aVGG,BiGRU-mVGG,BiGRU-aVGG,HAN-aVGG,HAN-mVGG和Vistanet-NM(m和a分别表示对多个图像特征的均值池化和最大值池化)。关于实验参数设置部分,本文使用200维的预训练词向量(Glove英文词向量和腾讯中文词向量),GRU单元的维度设置为50,注意力模块的上下文向量维度设为100,在训练过程中使用RMSprop优化器去优化损失函数。然后在测试集上评估模型性能,实验结果表明了本文提出的模型在上述两个公开数据集上面的分类精度和F1 Score均达到相对最高。总的来说,本文提出了一个用于文档级多模态情感分析的端到端的神经网络模型,该模型基于门控和注意力机制,并且使用图像表达的方面信息来增强相关句子情感信息的显著性,而不是通过融合文本和图像这两种模态的传统模式。该模型具有适应文档结构特性的分层体系结构,首先用双向的GRU提取词的特征,然后将词通过软注意机制汇总成句子,再然后通过视觉门控单元用图像的特征去放缩句子文本特征的大小以获得最终的句子表征,从而可以增强与图像相关的句子情感信息并抑制其它与图像无关的句子信息,最后再使用句子级别的软注意力机制去捕获其它没有被相关图像对齐的重要句子信息,同时将这些经过图像过滤的句子汇总为一个最终的高阶文档表示向量,以用于最终的情感极性分类。在两个公开的多模态评论数据集上的实验结果显示了本文提出模型具有更好的性能和较好的鲁棒性。
其他文献
伴随着经济数字化转型深入,以区块链技术为代表的多方协作技术逐渐普及,如何验证承载着多样化价值的数据有效性早已成为全行业的普遍需求。满足这一需求的关键是引入各式各样数字化契约,而支持契约中数字签名高效验证则是关键中的关键。Hyperledger Fabric是流行的开源许可区块链平台,它包含一种称为背书的机制,用于建立交易的有效性。对于块数据,每个节点都会使用其自己的私钥生成一个独立的数字签名,并将
大数据时代已经来临,海量的数据被存储在各种数据库中,如何从这些海量的数据中挖掘有价值的信息成为人们研究的重点。医疗、教育、金融、软件开发等各个行业都会在工作中频繁使用SQL语句用于数据的增删改查。对于有一定编程基础的人来说,使用SQL可能是一件比较轻松的事情,但对于更多的人来说需要学习一定的数据库和SQL语言相关专业知识并且需要在熟悉数据库模式的前提下,才能熟练进行SQL语句的编写。所以降低SQL
空气中的颗粒物在风管内表面沉降形成的沉积层会阻碍气流流动,并滋生微生物污染空气。因此,研究颗粒物在空调风管中的运动及沉降特性对改善室内空气品质有积极意义。目前,国内外学者对于风管内颗粒物的沉降迁移过程进行了较多的研究。然而,在风管系统中,弯头处的流场相比直管更复杂,颗粒物沉降特性也会发生变化。因此,本文将采用数值模拟手段对方形风管90°弯头内颗粒物运动及沉降特性及相关影响因素进行研究。首先,本文选
人类活动与气候变化极大地改变了全球河流和湖泊中的氮循环,并改变了温室气体氧化亚氮(N2O)的产生和排放规律。水动力条件和环境因素(温度、p H等)将影响河流和湖泊中溶解氧(DO)的浓度,而DO又是多种生物化学过程中影响N2O产生的重要因素。目前,这方面的研究还不深入。因此,论文通过构建沉积物-上覆水-气相系统,设置不同的搅拌转速和曝气量来改变水动力和环境条件,在体系中得到不同的DO浓度,进而研究在
近年来在计算机视觉和模式识别等领域,深度学习模型和算法的发展十分迅猛。伴随着这一趋势的发展,越来越多NLP(Natural Language Processing)领域的研究者开始应用新的深度学习方法。基于深度学习的自然语言处理技术在文本分类、情感分析等方面有着越来越广泛的应用,为人民生活提供了很大的便利。相比传统的基于手工构建特征的机器学习NLP系统,深度学习系统特征的构建往往需要更少的时间成本
针对现有工业机器人整机运动性能测评存在的评价参数单一、测评标准混杂以及评价软件缺乏等问题,提出了一种适用于6项整机运动性能测试的方案,构建了测试所需的动态跟踪测量系统,并开发了相应的评价软件协助解决用户在机器人选型和维护中的困扰。基于工业机器人位姿准确度、位姿重复性、位置稳定时间、位置超调量、轨迹准确度和轨迹重复性这6项整机运动性能的测量要求,以及相关评价软件的需求分析,完成了动态跟踪测量系统的搭
在中国,每年因误食含有农药残留的水果和蔬菜而中毒的人数超过10万人,死亡率约为20%。当前的农药残留检测设备不能同时满足对高精度和便携性的需求。尽管残留物检测手段有很多,但仍然存在着精度低和成本高的技术瓶颈。这些问题通过使用纸基微流控芯片的基于时间序列光电检测的农药残留检测方法解决。基于这些问题,政府制定了各种规则来调整农作物市场交易和食品工业。在中国,吡虫啉的最大残留限量(MRL)为0.5 mg
最近几十年以来,中国的迅速发展,各种基础设施的建设、通信技术的迅速推广得到了革命性的飞跃。网络和移动互联网的迅速崛起,各种技术带来的方便已经深入我们生活的每一个角落,人类社会生活的脚步已经进入了快速发展的信息时代。在信息时代,以人工智能为主题的技术在世界上掀起了一阵经久不息的热潮,随着“互联网+”国家战略的提出,给那些能够提供各种解决方案的技术带来了巨大的机遇。而文字识别技术,作为人工智能应用技术
水资源短缺、水源污染问题已成为越来越受关注的社会问题,污水的回用已被提上日程,但以往的研究发现污水中存在的以药物及个人护理用品(Pharmaceutical and Personal Care Products,PPCPs)为代表的微污染有机物(Micropollutants,MP)将对人体健康造成威胁,而传统的污水处理厂所采用的二级处理工艺无法将其有效去除。臭氧(O3)氧化能有效去除污水中的PP
作为与地球最近和最相似的行星,火星一直被人类所探索。在火星漫长的演化历史中,火星受到宇宙中各种物质或能量的影响,记录了火星地质和宇宙变化的历史。火星次表层地质结构及土壤特点的探测对于了解火星演化历史有着重要意义,同时也对火星水资源和矿物分布提供十分重要的信息,为未来的火星登陆和火星开发提供前提和保障。由于电磁波独特的穿透特性,星载雷达探测仪常被用于火星次表层的探测。然而单独的星载雷达探测仪在火星次