论文部分内容阅读
一直以来,自动语义分析是自然语言理解的主要目标之一,然而由于深层语义分析的复杂性,人们目前更关心浅层语义分析,一种简化的语义分析形式,它只分析与句子中谓词有关成分的语义角色,如施事、受事、地点和时间等。语义角色标注(Semantic Role Labeling,简称SRL)是对于给定句子中的每个谓词,分析出谓词的语义成分,是浅层语义分析的一种实现方式,具有定义清晰,便于评价的优点。近年来受到越来越多的关注,并已被广泛应用于更高级的自然语言处理相关任务,如机器翻译、信息抽取和问答系统等。目前,主流的语义角色标注研究有两种方法:基于特征向量的方法和基于树核函数的方法。基于特征向量的方法的研究已经较为成熟而且取得了很好的性能,然而,随着越来越多特征的加入,特征之间的影响越来越严重,使得系统性能增长逐渐趋缓,发展遇到了瓶颈。另一种研究趋势是探索基于树核函数的SRL。树核函数方法能够有效的利用结构化信息而避免复杂的特征工程工作。树核函数中使用的句法分析树可分为短语结构句法树和依存句法树。目前常用的基于树核函数的语义角色标注研究主要集中在短语结构句法分析树上。本文在依存句法分析的基础上,使用树核函数方法进行语义角色标注,研究内容主要包括三个方面:1.研究依存句法树结构化信息的表达形式。提出了一种新的依存树表达形式,称之为:依存关系驱动的成分句法树(Dependency Relation-driven Constituent Parse Tree, DR-CPT),该结构类似于短语结构句法树,但同时包含了依存关系类型信息,相当于在短语结构句法树上,将成分类型节点替换成依存关系类型。这样,新的依存树表达形式就同时具有两者的优点。2.研究基于依存树核函数的名词性谓词语义角色标注。结合名词性谓词语义角色标注特点和提出的DR-CPT结构,设计了三种不同的结构化信息裁剪策略,并使用树核函数方法分别在正确和自动句法树上进行实验,实验结果表明,在正确句法树上,系统取得了目前已知的最好性能。3.研究基于依存树核函数的动词性谓词语义角色标注。以CoNLL2009评测为基础,分别进行了谓词词义识别和语义角色标注两个任务,语义角色标注阶段同样提出了三种裁剪策略。实验结果表明,系统取得的性能与CoNLL2009评测报告的最好性能相当。