论文部分内容阅读
近年来,随着电子商务和社交媒体的蓬勃发展,网络用户可以针对包括在线商品、新闻时政、公众人物和个人经历等在内的各种主题和对象发表自己的主观评论意见。这类主观评论信息包含了用户个人的主观意见、情感、态度和观点等。随着用户的参与度不断提高,以Web为媒介的主观评论文本信息日益激增。面对海量的Web评论文本,如何针对特定信息需求,进行有效的用户主观意见挖掘和分析,即Web评论文本意见挖掘,日益成为当前智能信息处理、数据挖掘和计算语言学等领域的一个研究热点。Web评论文本意见挖掘技术具有重要的理论研究和实际应用价值,可以广泛地应用于信息检索、商业智能、社会舆情分析等方面。虽然粗粒度的主客观分类和情感分类技术已经相对比较成熟,但针对评论文本的细粒度意见挖掘研究仍面临着特征空间较大、数据稀疏、有效特征不足、自动化程度不高和领域依赖性等问题。本文针对以上关键问题,从细粒度意见元素抽取、自适应评价目标聚类、领域情感词典自动构建、评价目标和情感词联合聚类四个方面开展研究工作,具体研究内容和创新性成果包括:(1)针对细粒度意见挖掘面临的特征缺乏以及多级别特征的有效融合问题,提出了基于序列标注学习和句法语义结构特征的意见元素抽取方法。由于用户评论数据通常具有不规范性的特点,细粒度意见挖掘研究比传统的信息抽取任务更加困难,需要解决特征空间较大、数据稀疏和缺乏有效特征的难题。本文将评价目标和情感词的抽取任务转化为序列标注学习过程,采用条件随机场CRFs模型构建有效融合多级别特征的统一抽取框架,并提出一种朴素的图剪枝算法对评价目标进行自动分类。通过引入句法语义结构特征,有效利用长距离的依存句法关系,以解决有效标注特征缺乏问题。实验结果验证了基于序列标注学习和句法语义结构特征的意见元素抽取方法的有效性。(2)针对评价目标聚类的领域依赖性和语义关联相似度计算问题,提出了基于约束的评价目标谱聚类方法。评价目标聚类是用户评论意见挖掘研究中的核心任务,已成为基于特征的意见摘要和推荐的基础。现有的研究工作通常忽略了计算评价目标之间语义关联的领域依赖性,且存在着有效关联信息不足的问题。因此,本文研究提出基于约束的评价目标谱聚类方法以解决上述问题。该方法通过挖掘评价目标之间的词法约束和上下文约束信息,增强评价目标之间的领域关联性;采用约束谱聚类算法,在融合先验约束知识的同时,有效地降低聚类空间的高维性和稀疏性。实验结果表明,基于约束的谱聚类方法有效提高了评价目标聚类的效果。(3)针对情感词典构建存在的算法领域适应性差、种子词依赖性和准确率不高问题,提出了基于约束标签传播的领域情感词典自动构建方法。情感词典是自动化情感分析的重要基础,然而由于评论文本的领域性,情感词的倾向性并不是固定不变的,而是依赖于出现的领域和上下文语境。传统的构建方法通常都面临着领域依赖、自动构建程度不高、准确率低等问题。因此,本文研究提出基于约束标签传播的领域情感词典自动构建方法以解决上述问题。该方法针对情感词的领域性,利用组块依存知识和先验通用情感词典抽取领域候选情感词和短语;通过定义和抽取情感词之间的上下文约束和词法约束关系,增强情感词之间领域依赖的情感关联相似度;最后利用约束标签传播算法计算候选词的情感倾向,构建领域情感词典。实验结果表明,约束标签传播方法有效提高了领域情感词典构建的准确率,受种子词覆盖的影响较小。(4)针对细粒度意见挖掘中评价目标和情感词抽取以及匹配修饰关系计算问题,提出了评价目标和情感词的联合聚类方法。目前大多数的研究工作仅仅考虑了局部上下文中评价目标与情感词之间的直接共现关系,而忽略了全局领域上下文中评价目标与情感词之间的隐含修饰关系,且通常面临着标注训练语料缺乏、特征稀疏和领域依赖引起的准确率低问题。因此,本文采用联合聚类方法,将评价目标和情感词抽取以及它们之间的匹配修饰关系计算问题转化为基于先验约束的半监督学习过程。在评价目标具有相互约束信息的基础上,根据情感词与评价目标的关联关系引入情感词之间的约束关系,从而为联合聚类过程提供先验的指导知识。利用约束联合聚类算法,同步地对评价目标按照语义方面聚类,对情感词按照与评价目标类的关联聚类,从而获取情感词类与评价目标类之间的匹配修饰关系。实验结果验证了基于约束的评价目标和情感词联合聚类方法的有效性。