论文部分内容阅读
随着互联网规模和重要性的不断增长,在线商品评论的数量和影响日益剧增。在线商品评论通常是消费者做购买产品或服务的决策时十分重要的影响因素,也是确定这些产品或服务民意信息的宝贵来源。挖掘在线商品评论所携带的情感信息,分析消费者的情感倾向,对在线零售商和服务提供商均有着重要的意义。由于研究人员在情感倾向性分析领域孜孜不倦的努力,迄今为止,情感倾向性研究取得了较大的进展。在线商品评论中蕴含着消费者的主观情感信息,为了获取消费者的情感倾向性,需要利用自然语言处理的方式,处理评论文本。受限于语言的复杂多变,长期以来,自然语言处理都是一项十分艰难的任务,再加上在线商品评论中不可避免的包含垃圾评论,这便使得利用在线商品评论挖掘消费者情感倾向性存在以下两个需要解决的问题:(1)垃圾评论在一定程度上误导了观点挖掘系统,降低了系统的精度,如何解决垃圾评论问题,减少垃圾评论对系统的影响,是倾向性分析所面临的问题之一(2)针对在线商品评论复杂的语言现象,如何捕捉新词、否定词、比较词、不同情感倾向性的情感词对评论情感倾向性的影响,能否构建一个合理的在线评论情感倾向性分析模型,是提高评论倾向性分析的关键所在。本文针对上述问题,确立研究内容。主要工作如下:(1)针对垃圾评论影响倾向性分析的问题,本文提出了一种基于模型集成的产品垃圾评论识别方法。该方法利用评论内容和统计信息构造特征向量,将逻辑斯蒂回归作为次级学习器,通过stacking的方式集成了逻辑斯蒂回归、支持向量机、随机森林、神经网络等初级学习器。该方法在2015年第七届中文倾向性分析评测垃圾评论识别任务的所有模型中表现较好。(2)针对在线产品评论的特点,本文提出了一种基于卷积神经网络的产品评论情感倾向性分析方法。该方法以单个字为基本单位,利用worde2vec工具训练字级别词向量,将字级别词向量作为输入,利用不同大小的卷积核抽取句子特征,最后利用softmax模型对在线商品评论进行情感倾向性分类。实验表明,本文构建的模型能够较准确的识别在线商品评论的情感倾向性。