论文部分内容阅读
短文本的情感分析(Sentiment Analysis Of Short Texts),是指对富含情感的简短文本的观点挖掘。短文本的情感分析作为自然语言处理(Nature Language Processing,NLP)领域的一个重要分支,其目的是将本身带有主观性的简短文本中的情感分为积极和消极两类,或者更细粒化地分为积极、消极和中立等多种情感类别。短文本的情感分析在电子政务、舆情监控、个性化推荐等领域发挥着重要的作用。基于社交理论的短文本情感分析是文本情感分析的重要课题之一。推特是社交媒体中使用最为广泛的短文本数据来源。推特数据中不仅包含用户间复杂的社交关系,而且还包含用户评论的短文本信息。这些短文本信息一方面体现了用户对某个主题的评论观点,另一方面还蕴含丰富的情感信息。目前短文本的情感研究一般只发现了用户之间简单的朋友关系,未能对用户之间关注与被关注、情感的传播性进行更为深入的挖掘,且忽略了数据集中存在的类别不均衡现象可能对文本真实情感倾向造成的影响。本文针对上述问题,进行如下三方面的探索性研究。1.结合统计学知识与SentiWordNet情感词典,构建一种新的情感计分方法(Statistics Emotional Lexicon Method,SELM)。为挖掘更深层次的情感传播性,按照用户粉丝数量的多少,将用户标记为明星或普通用户。同时,结合当前用户关注的其他用户数量与该用户粉丝数量的比值,计算出一个社交关系影响分数。用该影响分数和SentiWordNet情感词典一起为推特短文本计算情感得分。采用SELM的计分方法,能将用户之间的社交关系结合到传统的基于词典的情感分析方法中来。与传统的基于情感词典的方法相比,本文提出的SELM计分方法使分类准确率有一定程度的提高。2.采用合成少数类的过抽样技术(Synthetic Minority Oversampling Technique,SMOTE)解决公开可用的美国医疗保健改革(Health Care Reform,HCR)数据集上的类别失衡问题。在增补后的数据集上训练一种处理噪声和短文本的社会学方法(Sociological Approach to handling Noisy and short Texts,SANT),并对SANT做出改进,提出ESANT(Enhance SANT)。与SANT不同的是,在对“信息-信息关系”建模时,本文增强了用户之间的社交关系,以表示更为深层次的情感传播性。实验证明,采用SMOTE处理数据集之后,能使SANT的分类效果更佳。本文提出的改进方法ESANT,能更为清晰地表达用户之间的情感影响,从而更为真实地判断短文本的情感倾向。与传统基于机器学习的情感分析方法相比较,在分类效果上有较为明显的提升。3.结合本文提出的SELM计分方法,将HCR数据集划分为确定集和不确定集,使用确定集训练提出的ESANT模型,为不确定集中的推文进行情感分析。实验证明,结合SELM计分方法和ESANT模型,能进一步提升分类效果。