论文部分内容阅读
情感分析(Sentiment Analysis),又被称作观点挖掘或观点分析。情感分析的目标是通过数据挖掘得出文本的情感极性,以及分析判断文本的情感走向。情感分析在互联网各个应用场景中发挥着重要的作用。在基于社交网络的研究课题中,微博情感分析(Microblog Sentiment Analysis)是一个重要的研究课题。微博(Microblog)是社交媒体中经典的短文本来源。微博平台(如推特、新浪微博)每天都能够收集大量的微博信息,其中包含的信息资源具有较大的挖掘价值。本文从半监督学习和迁移学习两个角度入手提出了两个新的分析模型,以期进一步提高短文本情感分析任务的分析质量。首先,我们针对社交媒体中少量人工情感标注和大量原始短文本这一情境,提出了一种基于图的半监督学习方法用于短文本情感分析。具体来说,我们使用“微博-微博”关系图构建了一个基于图的半监督学习分类器。我们在“微博-微博”关系图中同时结合了社交网络关系和文本相似度关系。本文提出的半监督学习模型通过“微博-微博”关系图,为有人工情感标注的短文本和原始未标注的短文本建立了联系。我们在两个真实推特语料库上进行了实验,实验结果表明本文提出的半监督学习模型是有效的。其次,短文本情感分析任务常常关注于某一特定领域(Domain),收集特定领域的人工情感标注是尤为困难且耗时的。另外,特定领域拥有其特定的词汇表,这些特定领域词汇的情感信息是不易发现的。为了解决这一问题,本文提出了一个有效的迁移学习模型用于短文本情感分析。模型的提出基于以下事实:情感词典所包含的领域无关情感知识可以通过模型迁移到特定领域的情感分析任务上。具体来说,我们利用情感词典这一领域无关知识源和“词汇-词汇”关系图,针对特定领域的短文本情感分析任务,构建了一个基于图的迁移学习模型。我们同样在两个真实推特语料库上进行了实验,实验结果表明本文提出的迁移学习模型能够为短文本情感分析任务带来有效的效果提升。