论文部分内容阅读
随着Web 2.0技术的迅猛发展,互联网上带有丰富观点的资源(如评论、博客等)正以指数级的速度增长。基于用户发布内容的情感分析已经成为自然语言处理领域一个引人注目的研究热点。情感分析又称意见挖掘,是指通过计算机手段,帮助用户快速获取、整理和分析相关评价信息。近年来,情感分析研究已经取得了一系列进展,特别是在情感信息的褒、贬极性分类方面。目前,越来越多的研究者开始把目光转向细粒度的情感分析以及基于情感分析的上层应用,如情感信息抽取、情感信息的检索与归纳等。评价对象抽取是情感分析研究中情感信息抽取任务的重要研究内容之一。本文着眼于情感信息抽取中评价对象抽取的研究,内容主要包括:1.基于条件随机场模型的评价对象抽取方法。在引入常用于情感信息抽取的特征的基础上,将特征归纳为词法、语法、相对位置、语义等四大类别,从特征的角度扩展了基于条件随机场的评价对象抽取系统,重点考查了不同特征及其组合对系统性能的影响,并做了详细的比较研究。2.考虑到在文本情感分析研究中普遍存在的领域适应问题,本文提出了多领域评价对象抽取融合,即将多个领域的训练样本充分利用起来,使得不同领域之间的训练样本能够互相帮助。通过多个领域基模型的融合,提高每个单一领域评价对象抽取的性能。本文研究了常用融合方法在该任务上的应用,并结合任务特点在元学习的基础上提出了改进的融合方法。3.随着语义角色标注技术的成熟及其在其他自然语言处理任务上的应用,本文探索了将语义角色标注信息应用于评价对象抽取。通过把语义角色信息作为一个特殊的特征,研究语义角色对评价对象抽取的作用。本文的主要贡献在于对单领域任务中有效特征的选择,以及对多领域融合方法的研究,具体来讲包括:1.提出了依存关系、情感词、语义角色等新特征,并对现有的特征加以归纳总结,成功地用于基于条件随机场模型的评价对象抽取。2.通过大量的对比实验,研究了评价对象抽取任务中的特征选择问题,系统地比较、研究了各特征之间的组合对评价对象抽取性能的影响。3.研究了在评价对象抽取中的多领域融合问题,指出了常用的多领域融合方法在该任务上的不足,并结合任务特点提出了适用于该任务的融合方法。4.探索了基于语义角色标注的浅层语义特征在该任务上的应用,实验表明语义角色信息对评价对象有很好的指示作用。这些方法的研究和所取得的成果将有助于提高评价对象抽取的性能,对今后情感分析领域的研究具有重要的参考价值。