论文部分内容阅读
随着互联网技术的快速发展,博客、微博以及电子商务等新兴社会媒体相继出现,网络用户越来越倾向于在这些网络平台上交流信息、共享观点。这类信息包含着用户对各类产品、新闻事件、组织团体的态度看法,积聚在一起具有巨大的商业价值。海量的网络评论数据迫切需要自动化的处理方式,情感分析作为一种自动化的评论分析方式应运而生,提出至今已得到了广泛的研究,并在企业决策、舆情控制、信息预测等多个领域发挥作用。论文探究网络用户的情感倾向,重点对评论文本中情感信息抽取、情感极性分类两个方面进行了研究,最后设计并实现了一个网络用户情感倾向分析系统。在情感信息抽取方面,论文提出了有效实现用户词典、领域相关情感词、评价搭配三种情感信息抽取的方法。首先提出基于统计量的方法来构建用户词典,该词典可在分词过程中导入来提升分词效果,也可用于情感词典的构建;其次提出基于共现图的方法解决情感词极性的领域依赖问题;最后提出一种基于句法分析的算法,可有效抽取出文本中的评价搭配,其中包含基于图的种子情感词库的构建方法,该情感词库可用来识别未登录情感词的极性。在情感分类方面,提出了IG-BP分类算法,主要包含特征建模、特征筛选、情感分类三个过程,并利用产品和新闻两类数据集对论文提出的算法进行实际测试,实验结果显示两类数据集最优模型准确率分别达到90%和87%。同时,论文还研究了新闻文本的主题聚类,目的是将同一主题的多源新闻文本聚合,以支持下一步对该主题的情感分类。针对此任务,论文提出了向量空间模型和概率主题模型两种文本建模方式,并对K-Means聚类算法进行改进,聚类实验结果表明概率主题模型建模文本效果更优。综上所述,论文在情感信息抽取和情感分类两个方面做了一定的理论创新工作,并且通过实验验证了文中所提算法的有效性,实现的原型系统可提供可视化的结果展示。本文的研究工作可为产品和新闻语料的情感分析提供有意义的参考。