中文成分句法分析关键技术研究

来源 :东北大学 | 被引量 : 2次 | 上传用户:chen769520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
成分句法分析(又被称作短语结构句法分析)是自然语言处理的核心任务之一,被广泛应用于包括统计机器翻译(Statistical Machine Translation)、语义角色标注(Semantic Role Labeling)、问答系统(Question Answering)、信息抽取(Information Extraction)在内的多种自然语言处理任务。由于人工标注句法数据(在句法分析领域,这类数据的集合通常被称作树库)的出现,数据驱动的句法分析方法成为当前句法分析研究的主流方法。但主流的成分句法分析器虽然能获得较好的性能,它们的速度却是非常慢的,这些速度较慢的句法分析模型不能满足实际应用的需求。为此,本文研究并构建了一个高效的中文成分句法分析模型,该模型基于移进-规约算法,其主要的优势在于其能够快速的进行句法分析,同时保证较好的性能,此外,本文还在基准系统的基础上对模型进行了几点改进。本文的主要内容如下:首先,研究并构建了中文成分句法分析基准系统。系统基于移进-规约算法,它是一个自底向上的句法分析算法,将成分句法分析过程转化成一个最优动作序列的搜索过程。该算法是一个线性的算法,所以能够高效率的完成句法分析任务。在训练过程中选择感知机模型,对算法进行建模,在解码模块使用柱搜索技术,既保证了算法的线性时间复杂度,又提高了算法的准确性。本文之后的研究以及改进的方法都将在这个基准系统上展开。其次,研究了提高中文成分句法分析性能的方法。通过对基准系统实验结果的分析提出了两种方法来改进分析模型:第一种是通过使用更丰富的句法分析特征来改进句法分析模型;另一种是使用基于半指导的方法,扩大训练集规模,提高句法分析动作判断的准确率,改进基准系统的性能。本文的贡献度主要表现在:研究并构建了一个高效的成分句法分析系统,在实验中可以达到每秒80句以上的分析速度。提出了两种改进句法分析模型的方法,并通过验证了这两种方法对句法分析性能的改进作用。最终的实验表明,本文提出的方法能够有效的改进成分句法分析模型的性能。在使用宾州大学中文树库标准测试集的条件下,算法获得的最高F1值为84.55%。
其他文献
【正】 儒家的兴奋点在人,它以说王道、谈仁义的面貌使得自己的整个学说基本上作为一种社会政治理论和伦理道德思想为人们所共认。但是,由于中国传统文化从来不把人和自然分
【正】 “兴于诗,立于礼,成于乐”,载于《论语·泰伯》篇,它与上下文都没什么内在的联系,所以蔡尚思先生在《孔子思想体系》一书中说:“乍看起来,这三句话有点没头没脑,
采用应力波、超声波、纵向及弯曲共振这4种方法,对红松和色木木梁试件在不合缺陷,含不同大小、位置和数量局部缺陷时的动弹性模量进行了测定,并分别讨论了其对木梁动弹性模量的
突变统计学刍议彭国富史造月谢英欣ABSTRACTItisofveryimportantsignificancetosetupMutaionStatisticsforwideningtheresearchareasofStatistics,enrich...更多还原
目的分析羚羊角胶囊联合赖氨肌醇维B12口服溶液治疗抽动障碍儿童疗效。方法选取6例抽动障碍儿童,按门诊就诊先后次序随机分为治疗组和对照组,治疗组应用羚羊角胶囊联合赖氨肌
留日学生在辛亥革命中的功绩为史学界所公认,而他们对五四运动的影响尚未引起人们的充分注意。笔者从大量的史料中看到,五四运动与留日学生有着十分密切的关系,在此前后留日
为了系统地分析非线性四轮转向车辆的动力学行为,并同时考虑实际车辆运行工况的复杂性,建立了具有非线性特征的四轮转向车辆动力学模型.选择质心侧偏角和横摆角速度作为控制