细粒度文本情感分析

来源 :河南科技大学 | 被引量 : 0次 | 上传用户:tdj_zhj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的不断发展与普及,各种形式多样、功能不同的网站与应用层出不穷,例如具有社交、购物、学习等等功能的网站。这些网站中一般包含着用户对新闻事件、电影音乐、商品优劣等等的评价信息,而这些评价中往往带有用户的主观情感倾向,通过对这些主观情感进行分析就可以判断出用户的喜好,这对个性化推荐、舆情分析、兴趣圈划分等等具有重要的研究意义和商业价值。由于这些评价的信息大多以文本的形式呈现,那么如何准确、快速的从文本中提取用户的情感吸引了广大学者竞相研究,文本情感分析这一具有理论与实际研究意义的热门研究也因此应运而生。  但是网络的快速发展带来了用户数据的指数型增长,面对如此海量的数据使用人工进行情感分析几乎是不可能完成的任务,如何利用计算机快速准确的从海量的数据中挖掘出用户的情感信息是文本情感分析的研究重点。依据文本的粒度,情感分析还可以分为词语级、句子级和篇章级,其中词语级是所有粒度研究的基础,依据文本的细粒度特征对句子或篇章进行情感分析,通过对细粒度文本的研究进一步提高文本情感分析的准确度与实用性。  常见的文本情感分类方法主要有基于情感知识的方法和基于特征分类的方法,但由于网络新词的不断涌现,情感知识更新并不及时,从而导致基于情感知识方法具有一定的局限性,而基于特征分类的方法在选择特征的时候往往并没有将情感词等情感知识考虑其中。因此,本文将两种方法进行了结合,提出了一种基于机器学习的细粒度文本情感分析方法。通过对现有特征选择与权重计算算法进行分析和筛选,发现现有的算法未能充分考虑情感词、修饰词的影响,在现有特征选择与权重计算的算法的基础上进行改进,提出了更适合情感分析的 N-CHI 特征选择算法和W-TF-IDF权重计算算法,增加了情感词在特征词中的比例与权重。  同时,鉴于积极与消极的二元情感分析方法无法有效反映用户情绪化意图,所以本文中还提出了一种基于 BP 神经网络的多元情绪分析方法。在该方法中,将原有的二元分类识别提升为多元情绪化分类方法,有效解决了对用户情绪缺乏表达的问题,同时使得情感分析更加细粒度,使其提升到了情绪化层面。  本文以现在热门的微博评论作为数据集,通过实验证明基于机器学习的细粒度文本情感分析方法和基于 BP 神经网络的多元情绪分析方法对情感词与修饰词的利用率高于其他算法,并在情感分类的过程中充分发挥了其作用,改进的算法有效的提高了情感分析的正确率,尤其对消极的情感分类正确率有较高的提升。在与其他同类研究方法对比该方法具有较高的分类正确率与普适性,同时实验结果还表明,对于单一话题的数据集上比多话题的数据集上的分类正确率更高。
其他文献
计算机网络技术从二十世纪七十年代开始到现在已经经历了三十多年发展历程,如今,计算机网络技术已经日渐成熟。 今天,计算机网络作为信息社会的基础设施已经日益深入到国
随着彩铃、同号、号码携带等新的电信增值服务类型的增加,以及电信企业为用户提供服务方式的扩展,电信业务运营系统与众多增值服务平台的互联问题变得越来越复杂,系统难于管理和
学位
e-Science主要研究科学领域的全球合作以及与之相适应的基础体系结构,它将对未来的科学研究方式产生革命性的影响。网格(Grid)是使e-Science成为可能的基础体系结构。计算化学
随着我国城市化的快速发展,地铁在城市交通体系中所处的地位日益显著,成为必不可少的交通工具。地铁供电系统的可靠性和稳定性是保证地铁安全运行的必要条件。如果供电系统一旦
认知无线电是近年新提出的一种无线通信的技术,它利用未授权通信用户的频谱感知能力,动态的自适应的使用空闲频谱资源,从而提高整个频谱的利用率。认知无线电用户可以感知外部环
自2002年10月上海黄金交易所成立,国内商业银行尤其是五大国有银行进度飞快的参与到贵金属交易行业中来,银行贵金属交易量增长迅速,为银行带来了丰厚的利润,贵金属业务已在银