论文部分内容阅读
随着互联网的不断发展与普及,各种形式多样、功能不同的网站与应用层出不穷,例如具有社交、购物、学习等等功能的网站。这些网站中一般包含着用户对新闻事件、电影音乐、商品优劣等等的评价信息,而这些评价中往往带有用户的主观情感倾向,通过对这些主观情感进行分析就可以判断出用户的喜好,这对个性化推荐、舆情分析、兴趣圈划分等等具有重要的研究意义和商业价值。由于这些评价的信息大多以文本的形式呈现,那么如何准确、快速的从文本中提取用户的情感吸引了广大学者竞相研究,文本情感分析这一具有理论与实际研究意义的热门研究也因此应运而生。 但是网络的快速发展带来了用户数据的指数型增长,面对如此海量的数据使用人工进行情感分析几乎是不可能完成的任务,如何利用计算机快速准确的从海量的数据中挖掘出用户的情感信息是文本情感分析的研究重点。依据文本的粒度,情感分析还可以分为词语级、句子级和篇章级,其中词语级是所有粒度研究的基础,依据文本的细粒度特征对句子或篇章进行情感分析,通过对细粒度文本的研究进一步提高文本情感分析的准确度与实用性。 常见的文本情感分类方法主要有基于情感知识的方法和基于特征分类的方法,但由于网络新词的不断涌现,情感知识更新并不及时,从而导致基于情感知识方法具有一定的局限性,而基于特征分类的方法在选择特征的时候往往并没有将情感词等情感知识考虑其中。因此,本文将两种方法进行了结合,提出了一种基于机器学习的细粒度文本情感分析方法。通过对现有特征选择与权重计算算法进行分析和筛选,发现现有的算法未能充分考虑情感词、修饰词的影响,在现有特征选择与权重计算的算法的基础上进行改进,提出了更适合情感分析的 N-CHI 特征选择算法和W-TF-IDF权重计算算法,增加了情感词在特征词中的比例与权重。 同时,鉴于积极与消极的二元情感分析方法无法有效反映用户情绪化意图,所以本文中还提出了一种基于 BP 神经网络的多元情绪分析方法。在该方法中,将原有的二元分类识别提升为多元情绪化分类方法,有效解决了对用户情绪缺乏表达的问题,同时使得情感分析更加细粒度,使其提升到了情绪化层面。 本文以现在热门的微博评论作为数据集,通过实验证明基于机器学习的细粒度文本情感分析方法和基于 BP 神经网络的多元情绪分析方法对情感词与修饰词的利用率高于其他算法,并在情感分类的过程中充分发挥了其作用,改进的算法有效的提高了情感分析的正确率,尤其对消极的情感分类正确率有较高的提升。在与其他同类研究方法对比该方法具有较高的分类正确率与普适性,同时实验结果还表明,对于单一话题的数据集上比多话题的数据集上的分类正确率更高。