论文部分内容阅读
方面级情感分析,是一种细粒度情感分析任务,其目标是判断评价对象的方面(也称属性,本文中均称之为方面)所属的情感极性。对于管理者而言,方面级情感分析可提供更精细的消费者对商品或服务的态度及观点,以此作为其改进产品或服务的依据;对于消费者而言,方面级情感分析可提供其他消费者对某种商品或服务所表达的情感及观点,以此作为其制定购买决策的依据。在方面级情感分析任务中,虽然基于传统机器学习的方法已经取得较好的实验结果,但这些方法很大程度上依赖于人工构建特征的有效性,并且需要大量人力劳动。使用基于长短时记忆神经网络(Long-Short Memory Neural Network,简称为LSTM)的模型,不需要人工构建特征,就可以从句子中学习到丰富的文本信息;通过引入注意力机制而获得上下文词对方面词的重要性程度,进一步增强了模型的预测能力。但是,这些基于LSTM的神经网络模型,采用对文本内容和方面分别建模的方法,对较长的文本序列,其情感特征在传递过程中可能会出现信息丢失的风险。基于注意力机制的模型,欠缺有效编码方面特征和情感特征的能力,并且随着注意力机制的引入,增加了神经网络模型的参数,可能会产生计算复杂度较高和过拟合的风险。因此,针对基于LSTM和注意力机制的神经网络模型,在方面级情感分析任务中不能有效编码方面特征和情感特征,从而导致文本信息表示不够合理的问题,本文提出基于句法信息和门控机制的神经网络模型(Aspect-Level Sentiment Analysis Based on Syntax Information and Gating Mechanism,以下简称SIGM模型)。模型主要结构包括:词嵌入层、Bi-LSTM层、句法信息层、卷积层、Tanh-Relu门控机制、池化层、输出层及Auto-Encoder结构。(1)词嵌入层和Bi-LSTM层。从词嵌入矩阵中获取文本序列中每个词语的词向量表示。然后,以采用词向量表示的文本序列作为输入,经过双向LSTM神经网络模型后,得到包含有上下文语义联系的词语的隐藏输出表示。(2)句法信息层。在文本序列中,与方面不同距离的上下文词,对方面的情感极性所产生的影响各不相同。本文使用文本序列的句法信息,来关注句法路径中与方面不同距离的上下文词对方面情感极性的影响。(3)Tanh-Relu门控机制。为有效建模方面特征和情感特征之间的联系,在双向LSTM神经网络模型的隐藏输出层上构建两个独立的卷积层,并将其分别与Tanh和Relu非线性门相连,本文将此结构称为Tanh-Re Lu门控单元。这个TanhRe Lu门控单元用于结合上述两个卷积层的输出结果,使得Tanh-Re Lu门控单元可以根据给定的方面信息选择性的提取与其较匹配的情感特征,进而判断方面所表达情感极性。(4)Auto-Encoder结构。在方面实体的情感分析任务中,方面实体通常由多个词或短语构成。传统的方法,通常将这些词向量表示求平均后来作为该方面实体的表示,这可能会遇到不能合理表示该方面实体信息的问题。为提升方面实体的信息表示能力,本文构建出Auto-Encoder结构以合理表征其所包含的方面信息,进而达到增强方面实体特征表示的目标。最后,为验证所提出的SIGM模型的预测性能,本文使用Laptop和Restaurant文本评论数据进行实验探究。实验结果显示,所提出的SIGM模型在上述2个数据集上的准确率和F1值均优于其他对比模型,证实了模型的有效性。同时,进一步开展实验分析发现,本文所提出的SIGM模型能高效的预测出文本评论中不同方面所属的情感极性。