论文部分内容阅读
随着互联网的蓬勃发展,越来越多的人通过微博、论坛、朋友圈等网络社区发表自己对当前一些热点事件的看法,消费者也频繁地通过网络发表自己对一些商品的意见,这些包含用户主观情感的评论性文本直接反映了用户的真实想法,因而对其进行有效的分析具有巨大的社会和商业价值。人工处理规模庞大的网络文本数据需要耗费巨大的人力物力,而借助高性能的计算机技术来处理庞大的网络文本可以大大增加效率,通过计算机对文本进行情感分析可以快速有效地提取出其中包含的有用信息。传统的文本情感分析主要针对词、短语、句子等进行研究,而对于篇幅较长的文本所做研究相对匮乏,而且对汉语中多种特殊的复杂句式结构缺乏足够有效的分析,所以本文就将篇幅较长的篇章级文本作为主要研究对象,并着重分析各种中文复杂句式,最终提出了一种基于句子情感权值合成算法的文本情感分析方法,对篇幅较长的中文文本能够进行有效的情感分析。研究中主要进行了以下工作:首先,词语的良好识别是进行后续研究的关键。研究中,为了更好的识别各种相关词语,在已有资源的基础上,构建了情感词典、关联词表、否定词表、总结词表、程度副词表等,在分词时融入构建好的各种词典以提高分词精度。其次,对传统的朴素贝叶斯文本分类算法进行了详细的分析,并对其进行了一定程度的改进,将改进后的算法应用于简单句的情感分析,并与原算法进行实验对比。再次,充分分析了汉语中多种复杂句式的特殊句式结构,复杂句中往往会出现多种语义共现的情况,利用传统的文本分类方法难以较好的分析复杂句的情感,所以根据关联词、否定词、情感词的不同组合规律,为复杂句式的情感分析设计了相应的情感分析规则。最后,在分析篇幅较长的中文文本时,首先将整篇文本细化为句子的集合,对简单句和复杂句分别采取相应的情感分析方法。在得到每个句子的情感之后,根据句子中的一些影响句子情感的特殊因素,比如程度副词、句子类型、句子位置等,为每个句子赋予相应的情感权值。在得到所有句子的情感权值之后,依据句子情感权值合成算法计算得出整篇文本的最终情感。在利用公开数据集所展开的实验中,改进后的朴素贝叶斯算法相对于改进前获得了更高的分析精度;利用新提出的情感分析规则对复杂句式进行情感分析,要比传统的文本分类算法拥有更好的分析效果;利用新提出的句子情感权值合成算法对三种不同类别的文本进行情感倾向性分析时,平均准确率分别达到了80.6%、81.4%、74.6%,平均召回率分别达到了80.1%、82%、77.2%,而利用传统的文本分类算法对其进行情感分析时,平均准确率分别为73.4%、76.2%、70.5%,平均召回率分别为76.1%、78.3%、72.3%。实验结果证明,利用句子情感权值合成算法可以较好地分析篇章级文本的情感倾向性,并且比传统的文本分类算法拥有更高的效率。