汉语依存句法分析关键技术研究

被引量 : 0次 | 上传用户:weilonglee
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
依存句法分析的目标是分析输入句子的句法结构,将词语序列转化为树状的依存结构。一条依存弧两个词语构成搭配关系,依存弧上的标签表示搭配的具体类型,如主语、宾语、状语等。在不同语法体系中,依存语法以其形式简洁、易于标注、便于应用等优点,逐渐受到研究人员的重视。计算自然语言学习国际会议(CoNLL)联合举办的公开评测任务从2006年至2009年连续四年关注面向多语言的依存句法分析,大大推动了依存句法分析的发展。依存句法分析也越来越广泛的应用于机器翻译、问答系统、文本挖掘、信息检索等。依存句法分析的研究工作旨在提高依存分析的准确率和效率。高准确率的分析结果可以为上层应用提供更可信的句法结构。随着互联网数据的迅速膨胀,上层应用系统需要迅速处理海量的信息,因此效率对于依存句法分析的应用也很关键。本文的研究内容涵盖这两个问题,包括以下四个方面。1.提出了基于柱搜索和标点切分的快速高阶依存句法分析方法。针对前人提出的面向高阶依存句法分析模型的动态规划解码算法时间复杂度高的问题,本文提出使用柱搜索的近似解码算法,一方面允许模型可以方便的融入丰富的高阶句法子树特征,另一方面保证较低的时间复杂度,我们实现的基于柱搜索的高阶依存句法分析系统在CoNLL2009年多语依存句法分析和语义角色标注联合评测任务上取得了优异的成绩。进而,我们针对汉语的特点,提出一种利用标点符号进行长句切分的二阶段依存句法分析方法,进一步提高依存句法分析模型处理长句时的效率。实验证明,这种方法可以大幅度提高依存句法分析的速度,长句子的句法分析准确率也有提高。2.提出了汉语词性标注和依存句法分析联合模型。由于缺少词语的形态变化信息,汉语词性标注和其他语言如英语相比,准确率较低。这对对汉语依存句法分析带来严重的错误蔓延问题。实验表明使用自动词性时依存句法分析准确率比使用正确词性时低大约6%。对此,本文提出并深入系统的研究了汉语词性标注和依存句法分析联合模型。首先,我们扩展了前人提出的面向依存句法分析的解码算法,提出了相应的面向联合模型的基于动态规划的解码算法。并且,为了解决联合解码算法的时间复杂度过高的问题,我们又提出了一种有效地基于边缘概率的词性裁剪方法。实验结果表明联合模型可以提高词性和句法准确率。深入的错误分析表明联合模型可以帮助消解句法敏感的词性歧义。3.提出了面向联合模型的分离被动进取训练算法。词性标注和依存句法分析联合模型中句法特征占据主导地位,导致词性特征无法贡献其消歧作用。对此,本文提出一种面向词性标注和依存句法分析联合模型的训练算法。算法分别不同的步长对词性特征和句法特征的权重进行更新。和传统的平均感知器和被动进取训练算法相比,分离被动进取训练算法可以很自然的增大词性特征的权重,从而更好的平衡联合模型中词性特征和句法特征的消歧作用。实验发现,我们的基于分离被动进取训练算法的联合模型在汉语和英语数据上都可以取得最好的词性和句法准确率。4.提出了基于准同步文法的多树库融合方法。汉语存在多个异构树库,而利用多个树库以提高依存句法分析准确率是一个非常有吸引力的课题。本文提出一种基于准同步文法的多树库融合方法,充分利用标注规范不同的多个单语树库,以提高句法分析准确率。我们设计了丰富的转换模式来刻画不同标注规范间的对应规律,然后基于这些转化模式形成准同步文法特征,从而增强基准依存句法分析模型。准同步文法特征用来指导句法模型做出更好的决策,并且可以很自然的融入到基于图的句法分析解码算法中。实验结果表明,我们的方法可以充分利用源树库的知识。从而提高句法模型在目标树库上的准确率。总之,本文针对汉语特点,深入研究了基于标点的快速高阶依存句法分析方法、词性标注和依存句法分析的联合模型和多树库融合问题,大大提高了汉语依存句法分析处理实际文本数据的效率和准确率。本研究取得了一些初步的成果。我们期待这些研究成果可以进一步推动自然语言处理领域和其他上层应用如机器翻译、信息抽取的发展。
其他文献
文章通过对中国新疆与中亚国家区域交通运输合作现状及主要障碍性因素进行分析,指出双方在交通运输领域的合作前景看好,共建欧亚大陆无障碍运输畅通走廊的愿景定将实现。
为了掌握不同树龄库尔勒香梨树体的养分平衡特征,从而为库尔勒香梨园的科学施肥提供技术指导,选择新疆特色果树库尔勒香梨作为研究对象,测定了不同树龄段库尔勒香梨叶片的养
在微分几何的曲线论教学中应注意强调或补充:应将曲线r=r(t),a<t<b视为函数而不是象的集合;微分几何中的曲线与数学分析、解析几何中的曲线的联系;曲线的自然参数表示;独立的
弃土换填是西部膨胀土地区修路的普遍做法,大量借土弃方,造成沿线生态破坏、水土流失、土地资源浪费、建设费用增加。采用物理处治技术可从根本上解决这些问题,而该技术的关
作为茶叶中含量最高的儿茶素类物质,表没食子儿茶素表没食子酸酯[(-)-epigallocatechin-3-gallate,EGCG]具有多种生物活性。越来越多的研究表明,EGCG对药物代谢酶和转运体均
本文以“分解纤维素的微生物的分离”为例,探讨STEM理念下的项目式教学在高中生物学实验教学中的应用。本项目以真实情境为驱动,引导学生运用生物学知识、技术和数学方法,小
目的探讨阵发性心房颤动(paroxysmal atrial fibrillation,PAF)发作、持续、终止的节律变化,及诱发PAF的可能因素.方法采用动态心电图(DCG)检测,分析PAF各时段发作、终止的次
介绍了一种基于linux操作系统的以太网高速数据记录仪。该记录仪实现了400Mbps实时数据的记录和回放,并具备完全网络控制功能,可不需要单独的显示控制终端,作为一个模块集成到系
为便于城市规划部门预留道路用地并为下一步工程设计阶段提供依据,在项目立项前应组织开展快速路交通详细规划设计。交通详细规划设计应结合区域城市规划、现状交通供给情况
住房是人类生存发展的基本要素之一,解决人口住房问题,是每个国家的难题。作为世界上人口最多的国家,中国政府投入了大量的人力物力财力进行保障性住房建设,但却在多个城市却出现