Twitter情感分类及可视化的研究

被引量 : 5次 | 上传用户:wqcfirst
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,人们越来越习惯于在线表达自己的意见和情感,特别是通过例如Twitter或BBS这样的社会媒体形式来表达情感变得越来越流行,并且大多数人表达的情感都是围绕着一个主题或一个事件。这些情感信息对于人们更好地做出决策非常重要,因此,各种各样的情感任务,包括意见提取、情感分类和推荐系统等被深入研究以获得有用的结果。对这些tweet进行情感分析就是用来评估现实生活中某一事件对人们的影响及人们对某一事件的反映的一种有效的方法。可是,关于如何展现这些分析结果仍然是一个开放的热点研究话题,人们通常都是从一系列的数字或表格来分析情感,但本论文在对Twitter进行有效的情感分类的基础上,提出了一种新的情感可视化方法结束了这样一种被动的数字展现的方式。在本论文中,首先从tweet中提取出了各条tweet的发布时间、逐点互信息-信息检索值、表情符号值、情感标点值等情感特征,然后在WEKA平台上利用不同的特征组合来对tweet进行情感分类。实验证明,同时使用这四种情感特征是进行情感分类的最佳特征组合。在此基础上,分别使用朴素贝叶斯、支持向量机、决策树和随机森林算法对不同话题下的tweet再进行情感分类实验,得出利用随机森林算法所训练出的分类器对不同的话题进行情感分类的准确率明显较高,都在80%以上。除此之外,基于上述情感分类结果,本论文提出了一种新的情感可视化方法,被称为SentimentRiver图,它不仅可以直观的展示情感分类的结果、所提取的有代表性的情感词,还能有效地展示出在一系列数据流中情感的发展变化趋势。通过引用模糊数学观点中非负隶属度权重来衡量情感的种类,论文中使用一个映射函数来呈现图中情感强度变化的颜色梯度,也就是将颜色的RGB值与通过随机森林分类器得到的非负隶属度权重构成映射关系。实验中的原始语料来自TREC2011的微博追踪数据和部分tweet实时流数据。相对于传统的饼图和直方图,论文中新提出的SentimentRiver图在对“BBC世界服务人员削减”和“奥巴马从提名到就职”等事件的情感可视化上更加直观有效,也更有利于帮助用户识别情感模式的转化与爆发,并能直观地预测情感的变化趋势。
其他文献
思想政治教育实践是在一定的时期内,教育者通过一定的方式对受教育者进行有组织性、计划性和目的性地教育,使之成为符合阶级以及社会规范等要求的实践活动。做好思想政治教育实
以高软化点煤沥青和热塑性酚醛树脂为主要原料,机械混合均匀后,采用悬浮法制备沥青/树脂基复合球形活性炭.使用扫描电子显微镜(SEM)、N2物理吸脱附仪、颗粒强度测定仪,对复合球
当前我国经济增长进入缓慢的状态,同时房地产业随着这样的趋势导致国家的宏观调控力度的加大;所以房地产企业面临着巨大的外部环境的变化,众多的房地产企业都以重置并购等形
<正>江苏省委下发《关于落实从严管理干部"五个要"的若干规定》,围绕破解干部重使用、轻管理的问题,出台文件明确20条具体措施,进一步将习近平总书记在江苏考察时提出的"管理
期刊
“意象”这一术语,通常运用于诗歌批评。意象是诗歌最小的艺术结构单位,是诗人的主观情思与被描写的客观或想象的景物的结合体。所以把握了意象及意象间的联系,也就把握了整
众所周知,节能降耗是目前中国乃至全世界面临的一项重要任务,建筑行业能耗占到了全社会总能耗的40%~50%。所以走环保节能建材之路,大力开发和利用各种高品质的节能建材,是节约
<正>代谢综合症是以中心性肥胖、糖尿病、高血压、高脂血症为主要特征,以胰岛素抵抗为共同基础,以合并出现多种代谢性疾病为临床特点一组严重影响健康的症候群。其发病核心因
阐述在动物实验机构中落实动物福利原则与做好动物实验工作之间的关系。说明什么是"动物福利"和动物实验的伦理原则及其与提高动物实验质量之间的关系,提出若干措施,例如通过
于非闇,是近代中国工笔花鸟画的大家之一,他开创了近现代北派工笔花鸟画的格局,与南方有着“现代黄荃”之美誉的陈之佛分别为近现代工笔花鸟画南北方的代表人物,并称“南陈北
随着我国会计准则体系建设的完成,会计政策选择将成为新会计准则实施的主要手段与工具。本文阐述了会计政策选择现状和含义,并以XX公司为案例指出了企业会计政策选择实践中存