论文部分内容阅读
随着互联网的发展,人们越来越习惯于在线表达自己的意见和情感,特别是通过例如Twitter或BBS这样的社会媒体形式来表达情感变得越来越流行,并且大多数人表达的情感都是围绕着一个主题或一个事件。这些情感信息对于人们更好地做出决策非常重要,因此,各种各样的情感任务,包括意见提取、情感分类和推荐系统等被深入研究以获得有用的结果。对这些tweet进行情感分析就是用来评估现实生活中某一事件对人们的影响及人们对某一事件的反映的一种有效的方法。可是,关于如何展现这些分析结果仍然是一个开放的热点研究话题,人们通常都是从一系列的数字或表格来分析情感,但本论文在对Twitter进行有效的情感分类的基础上,提出了一种新的情感可视化方法结束了这样一种被动的数字展现的方式。在本论文中,首先从tweet中提取出了各条tweet的发布时间、逐点互信息-信息检索值、表情符号值、情感标点值等情感特征,然后在WEKA平台上利用不同的特征组合来对tweet进行情感分类。实验证明,同时使用这四种情感特征是进行情感分类的最佳特征组合。在此基础上,分别使用朴素贝叶斯、支持向量机、决策树和随机森林算法对不同话题下的tweet再进行情感分类实验,得出利用随机森林算法所训练出的分类器对不同的话题进行情感分类的准确率明显较高,都在80%以上。除此之外,基于上述情感分类结果,本论文提出了一种新的情感可视化方法,被称为SentimentRiver图,它不仅可以直观的展示情感分类的结果、所提取的有代表性的情感词,还能有效地展示出在一系列数据流中情感的发展变化趋势。通过引用模糊数学观点中非负隶属度权重来衡量情感的种类,论文中使用一个映射函数来呈现图中情感强度变化的颜色梯度,也就是将颜色的RGB值与通过随机森林分类器得到的非负隶属度权重构成映射关系。实验中的原始语料来自TREC2011的微博追踪数据和部分tweet实时流数据。相对于传统的饼图和直方图,论文中新提出的SentimentRiver图在对“BBC世界服务人员削减”和“奥巴马从提名到就职”等事件的情感可视化上更加直观有效,也更有利于帮助用户识别情感模式的转化与爆发,并能直观地预测情感的变化趋势。