论文部分内容阅读
自然语言文本的否定语义是一种普遍而复杂的语言现象,通常用于表示人们对某一观点的态度。否定表述通常包含一个否定触发词(如“不会”),该词针对表述本身或其某一方面的语义进行了反转。此外,否定表述中一般还存在一个与否定触发词对应的的否定论元,以及其所隐含的积极意义。近十年来,否定论元识别一直受到自然语言处理研究的广泛关注。目前,否定语义识别的相关研究主要集中在三个方面:1)否定触发词识别,即识别出文本中的否定线索词或否定表达;2)否定覆盖域检测,即在一个句子中识别被否定触发词作用的的语义范围;3)否定论元识别,即识别一个否定表述中最显著被否定的部分。本文研究主要针对第三个方面,具体研究内容包括以下三部分。1.基于双向LSTM与CRF融合模型的否定触发词及否定论元识别。针对否定触发词识别,相关研究主要采用基于词表(词典)、基于统计或基于序列标注等传统方法,而否定论元识别方法主要集中在基于规则和基于特征工程的方法,这些方法大多依赖于领域专家进行模版或特征设计,需要耗费很多的人力和时间代价。因此,本文借鉴深度学习方法在各项自然语言处理研究中的成功经验,通过神经网络来自动学习参数以及深层语义特征表示。实验表明,本文方法能够自动地学习有效特征,并且性能高于目前最好的系统。2.基于上下文注意力机制的否定论元识别。目前,针对否定论元识别的相关研究大多仅考虑句子内部的词法、句法、语义等特征,忽略了上下文语境。通过对开发数据集的分析,本文观察到,不同语境下,作者所强调的重点具有很大差异。因此,本文结合注意力机制和基于主题的语义表示方法,实现基于词级别注意力机制和主题级别注意力机制的否定论元识别系统,并探讨了上下文信息对系统性能的影响。实验表明,本文的方法能够有效捕获相邻句子间的上下文依赖关系,其性能取得了SEM’12评测数据集上的最好结果。3.汉语否定论元语料库构建。目前,面向汉语的否定论元识别研究进展缓慢,其主要原因是缺乏面向汉语的语料库。因此,本文基于CNeSp语料库进行面向汉语的否定论元识别语料标注工作,该语料库是首个针对汉语的否定论元识别研究语料库,包含财经新闻、酒店评论、科技文献三个领域的内容,其规模为16841句,共4039个包含否定论元的实例。同时,本文对相关统计进行了分析,并采用LSTM模型构建了基准系统,为面向汉语的相关研究提供了语料资源的支持。本文致力于面向自然语言文本的否定论元自动识别研究,提出了一系列方法提升相关任务的性能,并推动了该研究在汉语上的进展。希望本文的研究对今后否定论元识别领域的相关研究具有一定的参考价值,促进深度自然语言理解的发展。