论文部分内容阅读
近年来,随着互联网技术的快速发展与广泛应用,电商网站、微博、新闻网站等逐渐成为人们生活中不可缺少的一部分,这些网站通常有着海量的在线用户评论,这些由用户撰写的评论蕴含着巨大的价值,已经成为消费者和相关企业的重要信息来源。由于在线评论具有信息量大、非结构化的特点,文本挖掘技术被用于在线评论的分析。情感分析(Sentiment Analysis)是一种分析在线评论情感观点的文本挖掘方法,主要进行两个任务:情感极性分类,分析文本情感观点的情感极性,包括正、负、中性;方面识别,识别情感观点所谈及的具体方面类别,可以是特定实体的任何属性或特征。然而,大多数传统的情感分析方法更多地关注文本中的情感词以及与之相关联的名词等,很少考虑句子其他部分的影响。基于此,本文试图从这一角度出发找到一种切实可行的方法来提高性能。本文对现有的方法进行了并行组合使用,组合方法不只关注明显的情感词和名词等,还关注句子的其他部分。无论是在情感极性分类还是在方面识别任务中,都验证了所使用的组合方法可以有效地提高性能。研究在两个不同层级上展开。首先,在句子层级的情感分析研究中,本文基于情感分析问题的特点,对显式、隐式情感意见进行区分,并且考虑到现有情感分析方法的优缺点,提出了基于词典和机器学习的并行组合方法,其核心思想是结合词典方法对显式情感较高的分类准确率以及机器学习方法较高的分类召回率的优势。接着,在句子层级组合方法构建的基础上,将其引入到更细粒度的方面层级中,建立了一个基于依存句法规则的候选意见抽取器,除了抽取特定的形容词短语和名词短语外,还考虑将句子中没有情感词的部分作为另一种类型的候选意见,然后级联了有监督的机器学习判别模型来获得方面类别。在句子层级的实验环节中,与基础的传统方法相比组合的情感极性分类方法的整体性能得到了提升;在方面层级的实验中,本文的方法较其他已有方法在方面识别任务上的表现更好,此实验结果验证了本文提出的情感分析方法的有效性。