长句切割在依存句法分析中的应用

来源 :南京大学 | 被引量 : 0次 | 上传用户:zhuliner
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
句法分析是连接词法分析和语义分析的桥梁,在自然语言处理中有着重要的意义。依存文法是句法中的一种,相比于短语结构文法,它直接刻画单词之间的依存关系,具有描述简洁、易于分析处理等特点,更是特别适合于词序较为自由的中文,在机器翻译、自动文摘、文档分类、问答系统等任务中有着广泛的应用,受到了研究人员的关注。当句子较长时,统计依存句法分析效率变低、结果变差。现有的一般做法是利用标点将其切割为短句,先对短句进行依存分析,然后再对短句中心词组成的新句子进行分析,最后把短句分析结果嵌入进来组成长句的依存分析结果。该做法的问题是,短句的依存错误会传播到后续步骤中,短句中心词之间的依存分析结果往往也不是很理想。针对以上问题,论文做了以下工作:1、提出了一种新的基于标点切割的依存分析方法。首先对长句进行依存分析;然后基于标点对长句进行切割,再对各短句进行依存分析;最后对两个分析结果进行综合得到最终分析结果。该方法可以弥补错误传播和短句间依存分析结果较差的一些缺陷。实验表明,该方法对提高依存句法分析结果的质量有着较大的帮助。2、为了进一步提升长句切割的精度,论文还借助序列化标注模型CRF对标点符号的功能进行了标记,根据不同的功能确定是否进行切割。实验表明使用CRF对标点进行标记在长句切割中有着积极的提升意义。3、设计并实现了依存分析结果的可视化交互工具,能以多种形式展示依存树并进行错误的高亮显示,该工具提供了高级搜索和统计功能,还可以对语料进行标注,满足了依存分析中的绝大部分应用需求。
其他文献
随着数字图像采集设备的普及,互联网中以图像为代表的海量数据正在与日俱增。数字图像在实际应用中极具价值,并已深入到生产、生活的各个方面。而图像索引技术又是大多数图像
传统的Internet中没有服务质量(Quality of Service, QoS)的保证,网络只提供最大努力(Best effort)的数据传输服务。由于传统的Internet中的应用主要是象FTP, WWW, Email等以数
随着计算机在日常工作中的广泛应用,人们的许多工作已经依靠计算机来完成,与此同时,各种类型的信息系统也被广泛使用来支持这些工作。但是这些系统基本上是独立运行的,相互之间缺乏必要的交互、协作与感知,从而使得它们在协调多个人的活动、以协同完成某个共同的任务方面有较严重的不足。这也就是工作流管理系统WFMS从90年代以来吸引来自研究机构和产业界广泛关注的重要原因。 作为计...
随着Internet的出现及普及、移动信息技术的发展,计算机软件运行的环境也开始从封闭、静态的环境逐步转换成一个开放、动态的环境中。环境对应用程序的影响越来越明显,尤其是