Web评论文本的细粒度意见挖掘技术研究

来源 :北京理工大学 | 被引量 : 34次 | 上传用户:ronaldocjz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着电子商务和社交媒体的蓬勃发展,网络用户可以针对包括在线商品、新闻时政、公众人物和个人经历等在内的各种主题和对象发表自己的主观评论意见。这类主观评论信息包含了用户个人的主观意见、情感、态度和观点等。随着用户的参与度不断提高,以Web为媒介的主观评论文本信息日益激增。面对海量的Web评论文本,如何针对特定信息需求,进行有效的用户主观意见挖掘和分析,即Web评论文本意见挖掘,日益成为当前智能信息处理、数据挖掘和计算语言学等领域的一个研究热点。Web评论文本意见挖掘技术具有重要的理论研究和实际应用价值,可以广泛地应用于信息检索、商业智能、社会舆情分析等方面。虽然粗粒度的主客观分类和情感分类技术已经相对比较成熟,但针对评论文本的细粒度意见挖掘研究仍面临着特征空间较大、数据稀疏、有效特征不足、自动化程度不高和领域依赖性等问题。本文针对以上关键问题,从细粒度意见元素抽取、自适应评价目标聚类、领域情感词典自动构建、评价目标和情感词联合聚类四个方面开展研究工作,具体研究内容和创新性成果包括:(1)针对细粒度意见挖掘面临的特征缺乏以及多级别特征的有效融合问题,提出了基于序列标注学习和句法语义结构特征的意见元素抽取方法。由于用户评论数据通常具有不规范性的特点,细粒度意见挖掘研究比传统的信息抽取任务更加困难,需要解决特征空间较大、数据稀疏和缺乏有效特征的难题。本文将评价目标和情感词的抽取任务转化为序列标注学习过程,采用条件随机场CRFs模型构建有效融合多级别特征的统一抽取框架,并提出一种朴素的图剪枝算法对评价目标进行自动分类。通过引入句法语义结构特征,有效利用长距离的依存句法关系,以解决有效标注特征缺乏问题。实验结果验证了基于序列标注学习和句法语义结构特征的意见元素抽取方法的有效性。(2)针对评价目标聚类的领域依赖性和语义关联相似度计算问题,提出了基于约束的评价目标谱聚类方法。评价目标聚类是用户评论意见挖掘研究中的核心任务,已成为基于特征的意见摘要和推荐的基础。现有的研究工作通常忽略了计算评价目标之间语义关联的领域依赖性,且存在着有效关联信息不足的问题。因此,本文研究提出基于约束的评价目标谱聚类方法以解决上述问题。该方法通过挖掘评价目标之间的词法约束和上下文约束信息,增强评价目标之间的领域关联性;采用约束谱聚类算法,在融合先验约束知识的同时,有效地降低聚类空间的高维性和稀疏性。实验结果表明,基于约束的谱聚类方法有效提高了评价目标聚类的效果。(3)针对情感词典构建存在的算法领域适应性差、种子词依赖性和准确率不高问题,提出了基于约束标签传播的领域情感词典自动构建方法。情感词典是自动化情感分析的重要基础,然而由于评论文本的领域性,情感词的倾向性并不是固定不变的,而是依赖于出现的领域和上下文语境。传统的构建方法通常都面临着领域依赖、自动构建程度不高、准确率低等问题。因此,本文研究提出基于约束标签传播的领域情感词典自动构建方法以解决上述问题。该方法针对情感词的领域性,利用组块依存知识和先验通用情感词典抽取领域候选情感词和短语;通过定义和抽取情感词之间的上下文约束和词法约束关系,增强情感词之间领域依赖的情感关联相似度;最后利用约束标签传播算法计算候选词的情感倾向,构建领域情感词典。实验结果表明,约束标签传播方法有效提高了领域情感词典构建的准确率,受种子词覆盖的影响较小。(4)针对细粒度意见挖掘中评价目标和情感词抽取以及匹配修饰关系计算问题,提出了评价目标和情感词的联合聚类方法。目前大多数的研究工作仅仅考虑了局部上下文中评价目标与情感词之间的直接共现关系,而忽略了全局领域上下文中评价目标与情感词之间的隐含修饰关系,且通常面临着标注训练语料缺乏、特征稀疏和领域依赖引起的准确率低问题。因此,本文采用联合聚类方法,将评价目标和情感词抽取以及它们之间的匹配修饰关系计算问题转化为基于先验约束的半监督学习过程。在评价目标具有相互约束信息的基础上,根据情感词与评价目标的关联关系引入情感词之间的约束关系,从而为联合聚类过程提供先验的指导知识。利用约束联合聚类算法,同步地对评价目标按照语义方面聚类,对情感词按照与评价目标类的关联聚类,从而获取情感词类与评价目标类之间的匹配修饰关系。实验结果验证了基于约束的评价目标和情感词联合聚类方法的有效性。
其他文献
目的探讨针刺对血管性痴呆大鼠血清中Bax和Bcl-2表达的影响。方法将大鼠随机分为假手术组、模型组和针刺组。间断夹闭颈总动脉法建立Va D模型,Morris水迷宫实验检测模型是否
在经济全球化逐步深入和西方服务型政府建设实践大发展的时代背景下,党和国家开始立足我国基本国情,重视服务型政府建设,致力于实现政府职能由“全能型”向“服务型”转变。服务
随着国际化进程日益加深,中外商业银行面临前所未有的激烈竞争,如何在严峻的形势下提高我国商业银行竞争力,是需要不断研究的问题。基于此,本文结合英国《银行家》杂志的评价
采用高温固相法成功的制备了5种白光LED用(氧)氮化物绿色荧光粉,系统的研究了所合成的绿粉的物相结构、光谱特性、热稳定性、量子效率以及显微形貌,并对部分荧光粉进行了封装测
<正>淬硬齿轮精加工工艺可分为两大类:一类是采用非成形的切削刃,如齿轮磨削加工;另一类则是具有成形的切削刃,如淬硬齿轮(HRC48~53)滚削加工。笔者将集中讨论用于硬滚齿加工
目的通过整理现代针灸教材中主治便秘的腧穴,归纳总结出便秘的"同功穴"及其规律谱,为腧穴配伍及针灸处方提供理论依据。方法基于网络检索和人工检索两种途径,检索27部现代针
1988年,全世界脊髓灰质炎(脊灰)发病约35万例。截至2005年,由于全球预防接种工作的开展,脊灰野病毒(Wild Poliovirus,WPV)Ⅰ型和Ⅲ型(WPVⅠ和WPVⅢ)已经在多数国家(除阿富汗
由于信息技术的飞速发展,军事作战方式不断改变,信息优势已经成为决定战场胜负形势的制高点。当前,各种使用移动Ad hoc网络技术构建的野战互联网络系统、战场侦察和监视系统等大
随着电网网架结构越来越复杂,调度员需要操作的系统也越来越多,增加了调度员的日常工作量,加上调度员传统调度业务操作不规范,容易使调度员因误判断或误调度而引起误操作,为
目的:改进上颌骨切除术的手术设计,为上颌骨缺损的赝复创造良好条件,以实现上颌骨缺损的最佳修复效果。方法:分别对采用变异上颌骨切除术和常规上颌骨切除术后患者的赝复体进行牙