论文部分内容阅读
随着互联网和智能手机的快速发展,多模态数据(声音,图像和文字)越来越被广泛地使用在社交网络中,并且这一数量在不断地增长。传统社交网络一般是通过文字的形式来实现信息的传递,但随着技术的不断发展,越来越多的人使用视频和图片的方式来表达自己的情感和观点。例如,很多网友在微信朋友圈发布视频动态或者通过文字加配图的形式来分享自己的生活。而这些多模态数据往往所蕴含的情感是非常复杂和多元的,因此分析多模态数据所表达的情感极性成为了当前情感分析领域新的机遇和挑战。以前的情感分析工作大多集中在单个模态的研究上,如文本情感分析主要是挖掘文本所表达的情感极性,但其本质上是一个文本分类任务。此外还有视觉情感分析,即分析图像所表达的情感极性,这种单模态的任务其实也可以被视为图像分类任务。但在多模态的情况下去分析和检测数据所表达的情感极性时,往往需要更加全面综合的考虑。现有的多模态情感分析的主流方法是基于融合机制的,包括早期融合,晚期融合以及中期融合等方式。早期融合又被称为数据级或者特征融合,指的是不同模态的特征被提取后立即被融合到一个共享的语义子空间。晚期融合也叫作决策级融合,它使用不同模态的数据独立地训练分类器来得到多个决策结果,然后通过集成这些结果的方式获得最终的情感标签。对于中期融合来说,常用的方法是在神经网络的中间层通过不同模态的注意力机制去融合相应的特征,最后送入到分类层,这种方法更具有模态间的交互性,往往会取得更佳的效果。另一方面,当前的基于图文的多模态情感分析任务基本上聚焦于Image-Text Pair的数据类型,这类数据往往由一段文本和一张图片构成,图像和文本是对齐的,并且使用的方法也大多是基于融合机制。而对于文档级别的多模态情感分类任务研究较少,即一个文档带有多张图片,这些图片往往相对于文本是稀疏的,同时图像和文本并不对齐,这样的多模态数据在实际生活中的应用也非常广泛。例如现在的在线餐馆评论,食客在书写评论时,除了写一段文字描述对于餐馆的菜品,环境以及用餐的感受外,还会附上相关的图片,这些图片可能是食客拍摄的菜品或者店内环境的照片等,所以分析和处理好图像和文本信息对于文档级的多模态情感分析任务而言是一个关键的问题。在这种任务上的图片往往不表达显著的情感信息,因此本文提出了一种基于门机制和注意力机制的端到端神经网络模型,创新性地使用图像信息作为门控开关去控制文本的信息流,而不是使用传统的融合机制。由于不同的图片表达不同的方面信息(Visual Aspect),这种门机制在本文中被称为Visual Aspect Gate Mechanism。通过这种机制能够增强与Visual Aspect相关句子所表达的情感信息的显著性,而这些相关的句子表达的情感通常对于一篇文档表达的总体情感具有一定的贡献作用。本文的主要贡献有如下三点:·本文提出了一个用于文档级多模态情感分析的新型端到端神经网络模型:该模型创新性地用图像作为门控开关去增强与图像相关的句子表达的情感信息的显著性,同时抑制其它与图像无关的句子信息。这些图像相关的句子情感信息对于文档表达的整体情感极性具有一定的贡献作用。·在两个公开的多模态评论数据集上的实验结果展示了本文提出的模型具有优秀的性能。消融实验清楚地展现了模型的各个子模块对性能提升的贡献。补充实验和分析表明了 Visual Aspect Gate Mechanism的有效性。·可视化分析直观地展示了模型是如何综合利用图像和文本信息去提高整体的分类性能。此外,对错误分类情况的分析提供了一个未来进一步有效提高模型性能的改进方向。本文的模型的大体设计思路和方法如下文所述。考虑到文档是层次化的(词组成句子,句子组成一篇文档),文档中的图片和句子被视为处于同一层级,因为句子往往可以描述一张图片,所以本文提出的模型具有一种分层的结构,以此来适应文档的结构特性。模型首先使用双向的GRU作为词编码器来提取每个词的特征,由于每个词对所在的整个句子的表示的贡献通常是不相等的,一些词语会传递更重要的信息和更丰富的情感,所以本文模型使用一个软注意力机制来为每个词分配权重,最后加权得到每个句子的表示si。对于模型的第二大层级来说,首先是文档中的图像信息部分,本文使用VGG-16卷积神经网络模型来抽取图像的特征,在移除掉该模型的最后一个分类层后,得到一个4096维的高阶的语义特征表示。此外,为了编码句子信息,本文使用两个独立的双向GRU。对于从上一步获得的句子向量si,经过两个独立的双向GRU后,可以获得它们的隐藏状态h1i和h2i。因为经过VGG-16抽取的图像特征维度和句子特征的维度不一致,所以本模型还使用一层带有tanh的非线性激活函数的全连接神经网络(MLP)来将原图像特征映射到和句子特征相同维度的特征空间中,记为lk。接下来是门控的表示:gki=Sigmoid(h1i ☉ ck⊕h1i,首先让句子的编码向量h1i与映射后的图像特征向量ck进行向量元素乘和向量元素加的模态交互,其中向量元素乘能够让句子特征与图像特征进行充分交互,而向量元素加还可以确保文本信息不会因为图像信息的稀疏性而被稀释掉。然后Sigmoid门控函数将交互后的结果限制在0到1之间,再使用该门控gki去控制句子的特征信息流:mki=h2i ☉gki。该门控可以通过学习来计算图像特征与文本特征之间的语义相似性,所以其交互结果可以视作相似度的评分。如果分数趋于0,那么句子si的特征将被抑制,反之,其特征信息可以得到相应的放大。经过这个门控过滤后可以获得过滤后的句子特征mki。此外,一个文档通常包含多张图片(假设为M张图),所以对于文档中的M张图片都使用该门控后就会产生M个不同视觉方面放缩的句子表示mki,k属于1到M,而这M个mki需要汇总为一个最终的视觉方面过滤后的句子表示。因为不同图片蕴含的信息的重要性往往也是不同的,所以这里使用软注意力机制去学习不同图片的权重,然后应用于mki去汇总得到总体的句子表示mi。文档中的L个句子在经过上述的视觉门控单元(Visual Aspect Gate Unit)后,得到L个句子表示向量。一方面由于每个句子所表达信息和情感的重要性也是不同的,另一方面,文档中一些句子没有图像与之对应,然而这些句子又表达了重要的情感信息,所以本文再次应用句子级别的软注意力机制来为每个句子分配不同的权重,然后加权汇总得到最终的文档表示向量,本文称这个注意力模块称为Sentence Later-Attention。最后将得到的高质量的文档表示向量送入一个线性分类层得到最后的情感分类结果。对于实验部分,本文选取了Yelp和Multi-ZOL两个多模态评论数据集,其中Yelp的数据源自美国最大的评论网站上面的五个不同城市的食物和餐馆评论。Mulit-ZOL的数据来源于中文IT网站(ZOL.com)上面的手机评论。然后本文选取了多个主流的文档级多模态情感分析的基线方法作为对比,包括TFN-mVGG,TFN-aVGG,BiGRU-mVGG,BiGRU-aVGG,HAN-aVGG,HAN-mVGG和Vistanet-NM(m和a分别表示对多个图像特征的均值池化和最大值池化)。关于实验参数设置部分,本文使用200维的预训练词向量(Glove英文词向量和腾讯中文词向量),GRU单元的维度设置为50,注意力模块的上下文向量维度设为100,在训练过程中使用RMSprop优化器去优化损失函数。然后在测试集上评估模型性能,实验结果表明了本文提出的模型在上述两个公开数据集上面的分类精度和F1 Score均达到相对最高。总的来说,本文提出了一个用于文档级多模态情感分析的端到端的神经网络模型,该模型基于门控和注意力机制,并且使用图像表达的方面信息来增强相关句子情感信息的显著性,而不是通过融合文本和图像这两种模态的传统模式。该模型具有适应文档结构特性的分层体系结构,首先用双向的GRU提取词的特征,然后将词通过软注意机制汇总成句子,再然后通过视觉门控单元用图像的特征去放缩句子文本特征的大小以获得最终的句子表征,从而可以增强与图像相关的句子情感信息并抑制其它与图像无关的句子信息,最后再使用句子级别的软注意力机制去捕获其它没有被相关图像对齐的重要句子信息,同时将这些经过图像过滤的句子汇总为一个最终的高阶文档表示向量,以用于最终的情感极性分类。在两个公开的多模态评论数据集上的实验结果显示了本文提出模型具有更好的性能和较好的鲁棒性。