论文部分内容阅读
社交网络的快速发展使得人们获取信息的方式发生了巨大的变化,越来越多的人开始习惯于通过网络来获取自己感兴趣的新闻资讯、热点信息等。其中,微博作为一种被普遍应用的网络媒体,以其丰富多彩的传播内容,随时随地的沟通手段受到了广大网民的青睐。庞大的微博用户量使得其数据量也呈现指数级增长,这些数据量中包含有大量的情感信息,对这些数据进行情感倾向性分析,不仅可以了解微博用户对重大事件、企业产品的情感态度,还可以为市场产品调研、网络舆情预警,以及政府制定决策提供有力的依据,具有巨大的社会和商业价值。现有的微博情感分析研究大多是针对于英文微博的,对中文微博的情感分析还处于起步阶段。本文针对中文微博的特点,进行了以下研究工作:1.中文微博情感分析相关概述。分析了中文微博的主要特点,对前人的微博情感分析方法理论进行分析与总结,比较基于情感词典的情感分析方法和基于机器学习的情感分析方法,针对两种方法的不足,提出一种新的基于情感词典与句型分类的中文微博情感分析方法。2.中文微博情感词典构建。以现有情感资源为基础,对情感词典进行网络化扩展,构建中文微博情感词典,详细介绍了基础情感词典、网络情感词典、表情符号库的构建方法,并在此基础上,利用拉普拉斯平滑的SO-PMI算法对微博情感词典进行扩展。3.基于句型分类的微博情感倾向性分析。深入分析不同句型对句子情感倾向性的影响,通过改进C4.5决策树分类算法进行句型分类,并在此基础上,对不同句型进行相应分析处理,计算句子情感值,并同时考虑标点符号,关联词、句子位置等对句子情感强度的影响,对句子情感权重进行调整,分析微博情感倾向性。基于以上研究,利用COAE2014中任务四中公开的标准微博数据集作为测试语料,设计实验对本文方法的可行性进行验证。实验结果显示,该方法能够有效的对中文微博情感倾向性进行判别,具有较高的准确率。