论文部分内容阅读
情感分析任务能够帮助人们高效分析互联网所呈现的包含情感信息的海量文本数据,并在一定程度上帮助消费者更加高效地做出决策,故颇具研究意义。传统的情感分析任务是直接判断给定文本的情感倾向。然而,当文本中包含多个情感目标(主题词),并且对应情感倾向冲突时,它则无法对文本情感倾向做出恰当的判断。因此,针对基于主题的细粒度情感分析任务的分析与研究非常有必要。该任务不但能够将文本中的多个情感对象识别出来,同时还能判别主题词对应的情感倾向。本论文立足于基于主题的细粒度情感分析任务的两个子任务——提取主题词任务和给定主题词的情感分析任务。主题词提取任务主要工作是从评论文本中将情感对象(主题词)提取出来,而给定主题词的情感分析任务主要工作是分析评论中特定主题词的情感倾向。因此,本论文的主要工作和研究成果如下:1.本论文借助于迁移学习方法,提出了基于预训练模型学习领域信息词嵌入表达、情感信息词嵌入表达的方法,以弥补通用嵌入表达只能捕获通用语义信息的缺陷。这两种嵌入表达更加贴近提取主题词、及特定主题词的情感分析两个子任务的需求。此外,通过迁移学习,可以将大规模语料涵盖的通用语义信息、以及扩展语料蕴含的特定知识,迁移到学习的词嵌入表征中。2.针对主题词提取任务,提出了基于多维度嵌入表达和self-attention机制的主题词提取模型。self-attention机制的引入,有效解决了主题词和上下文之间长距离依赖关系捕获不充分的问题。为了解决实验数据领域相关性强的问题,模型添加了包含领域信息的词嵌入表达。此外,该模型嵌入层同时使用了通用的词嵌入表达、包含领域信息的词嵌入表达、以及单词特征共同提升模型性能。3.针对特定主题词的情感分析任务,提出了改进的基于预训练方法的模型、以及改进的基于多任务方法的模型,以解决深度学习模型在小数据集上性能受限的问题。模型通过引入门控的多重attention机制,解决传统attention机制长距离文本特征捕获不充分问题,多角度学习上下文对特定主题词情感判定的贡献度。其次,利用包含情感信息的词嵌入表达的使用,解决通用嵌入表达不包含情感信息的问题。