基于社交理论和不均衡过抽样的短文本情感分析研究与实现

来源 :中南财经政法大学 | 被引量 : 0次 | 上传用户:lpp110894
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
短文本的情感分析(Sentiment Analysis Of Short Texts),是指对富含情感的简短文本的观点挖掘。短文本的情感分析作为自然语言处理(Nature Language Processing,NLP)领域的一个重要分支,其目的是将本身带有主观性的简短文本中的情感分为积极和消极两类,或者更细粒化地分为积极、消极和中立等多种情感类别。短文本的情感分析在电子政务、舆情监控、个性化推荐等领域发挥着重要的作用。基于社交理论的短文本情感分析是文本情感分析的重要课题之一。推特是社交媒体中使用最为广泛的短文本数据来源。推特数据中不仅包含用户间复杂的社交关系,而且还包含用户评论的短文本信息。这些短文本信息一方面体现了用户对某个主题的评论观点,另一方面还蕴含丰富的情感信息。目前短文本的情感研究一般只发现了用户之间简单的朋友关系,未能对用户之间关注与被关注、情感的传播性进行更为深入的挖掘,且忽略了数据集中存在的类别不均衡现象可能对文本真实情感倾向造成的影响。本文针对上述问题,进行如下三方面的探索性研究。1.结合统计学知识与SentiWordNet情感词典,构建一种新的情感计分方法(Statistics Emotional Lexicon Method,SELM)。为挖掘更深层次的情感传播性,按照用户粉丝数量的多少,将用户标记为明星或普通用户。同时,结合当前用户关注的其他用户数量与该用户粉丝数量的比值,计算出一个社交关系影响分数。用该影响分数和SentiWordNet情感词典一起为推特短文本计算情感得分。采用SELM的计分方法,能将用户之间的社交关系结合到传统的基于词典的情感分析方法中来。与传统的基于情感词典的方法相比,本文提出的SELM计分方法使分类准确率有一定程度的提高。2.采用合成少数类的过抽样技术(Synthetic Minority Oversampling Technique,SMOTE)解决公开可用的美国医疗保健改革(Health Care Reform,HCR)数据集上的类别失衡问题。在增补后的数据集上训练一种处理噪声和短文本的社会学方法(Sociological Approach to handling Noisy and short Texts,SANT),并对SANT做出改进,提出ESANT(Enhance SANT)。与SANT不同的是,在对“信息-信息关系”建模时,本文增强了用户之间的社交关系,以表示更为深层次的情感传播性。实验证明,采用SMOTE处理数据集之后,能使SANT的分类效果更佳。本文提出的改进方法ESANT,能更为清晰地表达用户之间的情感影响,从而更为真实地判断短文本的情感倾向。与传统基于机器学习的情感分析方法相比较,在分类效果上有较为明显的提升。3.结合本文提出的SELM计分方法,将HCR数据集划分为确定集和不确定集,使用确定集训练提出的ESANT模型,为不确定集中的推文进行情感分析。实验证明,结合SELM计分方法和ESANT模型,能进一步提升分类效果。
其他文献
传统的网络爬虫是获取互联网数据的基本手段,然而随着万维网信息的爆炸式增长,传统网络爬虫所获取数据中的很大一部分对于用户来说是无用的;因此,如何返回更多有用数据得到了
互联网时代的高速发展,带来的不仅是人们生活和经济的变化,还有这一系列互联网应用背后日益增加的数据量。图作为一种强大的数据建模形式,在海量数据中占据着重要地位。随着
煤矿区地表沉陷信息的快速获取对于矿区的综合整治和生态修复具有重要意义。高潜水位矿区作为我国典型的矿区,井工开采是其主要的采煤方式,因此煤炭开采极易造成的大面积的沉
近年来,超疏水材料因其特有的性质可广泛应用于自清洁、防腐蚀、减阻以及油-水分离等各个领域。由无机特殊形貌与有机低表面能物质的修饰相结合的方法在超疏水材料的制备领域
本文主要研究非结构网格上求解二维双曲守恒律的中心间断伽辽金方法。中心间断伽辽金方法(central discontinuous Galerkin,CDG)结合了间断伽辽金(discontinuous Galerkin,DG
316不锈钢是具有面心立方结构晶格的典型的奥氏体不锈钢,因其强度高、耐高温、耐腐蚀等优异性能而广泛应用于诸多领域,但其抗疲劳性能不佳,限制了其在极端严苛工况下的应用。
现如今,音乐与人们的生活密切相关,无处不在。随着数字音乐的出现,在线音乐的发展越来越快,越来越多的用户选择在线收听音乐。这种发展状况不仅使得网络音乐用户的数量迅速增
镁合金板材基于自身比重小、比强度高的特点,在电子产品、汽车、航空航天、国防等领域的应用越来越广泛。但是受制于自身密排六方的晶体结构,板材在轧制过程中极易形成强基面
P2型层状氧化物正极材料由于其能量密度高、种类丰富、合成方法简单与环境污染小等优势,被认为是最具有发展前景的钠离子电池正极材料之一。然而,由于钠离子较大的离子半径与
随着P2P等类似软件的发展,网络服务商的角色和作用也发生了重要转变,信息链接和传输不需要再经过中央处理器,而是可直接实现“一对多”甚至“多对多”的传输。在这一过程中,