论文部分内容阅读
句法分析任务是自然语言处理中的基本任务之一,是很多其他自然语言处理任务的基础。但是在近年来的研究工作中,句法分析任务变得越来越困难。其中一个主要的难点就在于自然语言句子中含有大量的并列结构。并列结构是一种复杂的,出现频率很高的一种语言现象。它将句子中的两个或多个成分连接起来,形成并列结构。由于其复杂的结构,使得对这些并列结构的句法分析变得非常困难,并列结构因此成为了句法分析,尤其是中文句法分析的难点之一。并列结构具有很多固有的难点,首先,并列结构本身没有明确的定义,这导致了整个问题的定义不明确,这是一个不完备的问题。其次,并列结构具有很多不同的形态,比如词与词的并列,短语与短语的并列,子句与子句的并列;并列结构还具有不同的结构,比如一个句子中会出现多个平行的并列结构,也会出现相互嵌套的并列结构。最后,并列结构建模十分困难,句法分析技术中传统的特征模板很难对并列结构进行精确的描述,这些特征模板只能识别出很少一部分的并列结构。如果我们能够提前将并列结构自动识别出来,然后将这部分信息作为先验知识送入句法分析器中,句法分析器的性能将会得到很大提高。本文目的就在于提前将这些并列结构自动识别出来。我们将其看成一个独立的任务,从而将其从句法分析中剥离出来。针对上文提到的这些难点,我们对中文并列结构的识别问题展开了研究工作,本文主要工作主要有以下几个方面:1.根据CTB的标注规范,明确定义了并列结构,并设计抽取规则,从CTB标准树库中抽取出并列结构,从而构造出标准的并列结构数据集。同时,定义了一套上下文无关文法用于描述并列结构,该文法专门为中文所设计,不仅能改覆盖了所有可能出现嵌套并列结构,还能够覆盖中文中并列结构的特殊现象。利用这套文法,我们将并列结构表示成一种树形结构,继而我们可以继续使用句法分析的技术来处理并列结构的问题。2.在移进-规约搜索算法的基础之上,我们利用文法在搜索过程中增加约束条件,实现了剪枝操作,从而降低了搜索空间。同时,我们设计了新的基于词向量表示的特征模板用来描述并列结构,弥补了传统特征无法描述并列结构的缺点,实验证明我们新设计的特征模板对并列结构识别问题具有较高的提升作用。3.提出了一种全新的两步式搜索框架用于处理并列结构的识别问题。我们将其分成两个不同的步骤,在每一步中分别对并列结构的不同方面进行建模。在第一步中,我们修改了传统的循环神经网络结构,对短语的合理性进行建模,然后在基于移进-规约算法的搜索技术中加入我们修改后的循环神经网络,对并列结构的树形结构进行搜索;在第二步中我们提出了一种新的网络结构,可以同时对短语的合理性和相似性进行建模。利用这个新的网络结构,我们对第一步搜索出的结果进行重排序,从而挑选出最佳的并列结构。