中文并列结构识别问题的研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:hml9061
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
句法分析任务是自然语言处理中的基本任务之一,是很多其他自然语言处理任务的基础。但是在近年来的研究工作中,句法分析任务变得越来越困难。其中一个主要的难点就在于自然语言句子中含有大量的并列结构。并列结构是一种复杂的,出现频率很高的一种语言现象。它将句子中的两个或多个成分连接起来,形成并列结构。由于其复杂的结构,使得对这些并列结构的句法分析变得非常困难,并列结构因此成为了句法分析,尤其是中文句法分析的难点之一。并列结构具有很多固有的难点,首先,并列结构本身没有明确的定义,这导致了整个问题的定义不明确,这是一个不完备的问题。其次,并列结构具有很多不同的形态,比如词与词的并列,短语与短语的并列,子句与子句的并列;并列结构还具有不同的结构,比如一个句子中会出现多个平行的并列结构,也会出现相互嵌套的并列结构。最后,并列结构建模十分困难,句法分析技术中传统的特征模板很难对并列结构进行精确的描述,这些特征模板只能识别出很少一部分的并列结构。如果我们能够提前将并列结构自动识别出来,然后将这部分信息作为先验知识送入句法分析器中,句法分析器的性能将会得到很大提高。本文目的就在于提前将这些并列结构自动识别出来。我们将其看成一个独立的任务,从而将其从句法分析中剥离出来。针对上文提到的这些难点,我们对中文并列结构的识别问题展开了研究工作,本文主要工作主要有以下几个方面:1.根据CTB的标注规范,明确定义了并列结构,并设计抽取规则,从CTB标准树库中抽取出并列结构,从而构造出标准的并列结构数据集。同时,定义了一套上下文无关文法用于描述并列结构,该文法专门为中文所设计,不仅能改覆盖了所有可能出现嵌套并列结构,还能够覆盖中文中并列结构的特殊现象。利用这套文法,我们将并列结构表示成一种树形结构,继而我们可以继续使用句法分析的技术来处理并列结构的问题。2.在移进-规约搜索算法的基础之上,我们利用文法在搜索过程中增加约束条件,实现了剪枝操作,从而降低了搜索空间。同时,我们设计了新的基于词向量表示的特征模板用来描述并列结构,弥补了传统特征无法描述并列结构的缺点,实验证明我们新设计的特征模板对并列结构识别问题具有较高的提升作用。3.提出了一种全新的两步式搜索框架用于处理并列结构的识别问题。我们将其分成两个不同的步骤,在每一步中分别对并列结构的不同方面进行建模。在第一步中,我们修改了传统的循环神经网络结构,对短语的合理性进行建模,然后在基于移进-规约算法的搜索技术中加入我们修改后的循环神经网络,对并列结构的树形结构进行搜索;在第二步中我们提出了一种新的网络结构,可以同时对短语的合理性和相似性进行建模。利用这个新的网络结构,我们对第一步搜索出的结果进行重排序,从而挑选出最佳的并列结构。
其他文献
在模式识别问题中的分类器设计中,正则化技术被广为使用,并在理论与实际应用上取得了瞩目的成就。但是,正则化技术也面临着如何提高分类器的推广性能、如何更多的融合数据的
蜕变测试充分挖掘成功测试用例所包含的信息并加以应用,有效地解决了软件测试的Oracle问题。影响蜕变测试效果的两大关键因素是原始测试用例的生成和蜕变关系的选择/生成,本文
学位
该文就是对VPN的各种实现机制,包括VPN的逻辑结构、寻址方式、封装方案、路由机制、安全性能、传输效率、等各方面进行分析,对实现VPN的一些基本模型,如使用IP Sec ,VPND,PPT
近几年MapReduce的出现推动了云计算技术的快速发展,低成本与高可伸缩性使其得到广泛应用。同时,为了增强了用户代码的可维护性,用于将高层查询语言转换为MapReduce的Hive、Pig
计算机博弈就是计算机下棋。图灵测试便是要通过下棋检测计算机智能水平的高低。计算机博弈属于人工智能领域的一个重要分支。计算机的博弈水平代表了计算机的智能水平。让计
  本文首先分析了个人信息的内涵,个人信息管理系统的现状及存在问题,并提出了一个基于XML文档进行个人信息管理的方案。然后在简要介绍XML技术的基础上,演示了一项个人信息的
人体动作的分割和识别一直是计算机视觉领域一个重要的课题。在人机交互、视频监控自动化、游戏控制系统等应用场景下,准确的动作识别都是整个系统中至关重要的一环。相较于
在人类的思维和学习过程中,类比推理是一种重要的方法和手段.实际上,设计师在进行大多数工程项目的设计时,都有意识或无意识地运用了类比推理.基于类比的工程智能CAD技术能够
学位