基于情感词的中文文本情感分类研究

来源 :湖南工业大学 | 被引量 : 0次 | 上传用户:zql0913
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年来,随着Internet的发展,人们能够方便的获得大量的信息。然而面对海量的信息资源,怎样快速有效的获取并使用其中有效的信息成为人们关注的问题。文本情感倾向性分析能够帮助人们从海量的信息中识别出文本的情感信息,以便对某事做出正确的决策。目前,文本情感分类已成为信息检索和自然语言处理领域中重要的研究方向,广泛应用于信息过滤、网络监管等信息安全领域。本文对基于情感词的中文文本情感倾向分类的情感词识别、情感倾向判断以s及情感权值计算进行了深入研究。本文的主要研究工作如下:  (1)基于中文词语语义相似度方式,提出一种中文情感词词典构建方法。利用该方法构建了两类情感词典:基础情感词词典和修饰词词典,为中文文本情感特征选择以及情感权重计算提供依据。基础情感词词典是以HowNet情感词语集为基础,对每一个基础情感词赋予一个[-1,1]的数值作为情感倾向权重。修饰词词典包括程度词词典、否定词词典以及连词词典。基础情感词典和连词词典用来识别中文情感词;程度词词典和否定词词典用于调整上下文环境中情感词的动态情感倾向。  (2)在情感词的识别方面,提出了一种基于多重情感词典的情感词识别算法。算法思想如下:a、利用基础情感词词典识别情感词;b、利用连词词典扩展文本中与基础情感词连用的情感词语;c、以已选择的情感词作为情感种子词,利用词语距离算法进一步抽取未知的情感词。并在该算法的基础上,以基础情感词词典权值为依据,计算语料库中情感词的静态特征权值。通过实验发现,该方法要优于SO-PMI、HM算法。  (3)在情感词静态特征的基础上,提出一种基于上下文环境的动态特征识别与权值计算方法。首先使用句法分析,找出修饰词与情感词之间的关系,如果是状中关系,则利用程度词词典和否定词词典计算出该情感词的语义情感倾向值。实验表明,基于情感词的上下文动态特征的情感分类性能明显优于情感词的静态特征的情感分类。最后设计了一个文本情感分类实验系统。
其他文献
从大量繁杂的文本信息中获取有用的信息是信息处理的一大任务,文本分类是实现这个任务的最重要的方法之一。而文本分类的前提在于文本的表示和特征项的选择。因为在文本分类
随着“物联网(Internet of Things)”建设需求的出现,信息共享互联互通已经日益成为当前物流公共服务平台建设面临的重大课题。因此,对物流公共信息共享的程度的要求也越来越
以数据为中心是BPMS (Business Process Management System)的一种发展趋势,典型代表是IBM提出的Artifact理念及其实现思想。逻辑模型向物理模型的自动转换问题是面向Artifac
协同进化算法(最早在1991年由Hillis提出)是近年来在协同进化论基础上发展起来的一类新的进化算法,它在进化算法的基础上,考虑了种群与种群之间、种群与环境之间在进化过程中