论文部分内容阅读
动词次范畴化信息反映了动词作谓词时所表现出来的不同句法特征的分布,作为自然语言处理进一步发展所不可或缺的知识,汉语中的相关研究还很薄弱。探索面向真实语料的汉语动词次范畴化自动获取方法对于中文信息处理来说具有重要的理论研究意义和广阔的应用前景。现有的句子级别的汉语动词次范畴信息(简称SCF)获取技术还存在很多不足之处,分类获取精度不高。本文在国内外已有相关成果的基础上,对句子结构中包含的次范畴信息进行分析,探索各类相关算法,对面向真实语料的句子级别汉语动词次范畴信息进行分类获取,提高其获取精度。本文在探索分类获取方法的研究过程中,主要从如下几个方面展开:1、对已有的基于手写规则推导,通过统计过滤获取SCF分类信息的方法进行了分析,探讨其产生错误的原因。并简要介绍了次范畴化自动获取的评价机制。2、研究并提出了使用支持向量机模型,建立最优分类面,通过二类分类器,分别获取各次范畴分类的方法,并通过实验验证其可行性。3、针对支持向量机方法在自动获取性能方面的不足,探索提出了基于相似度计算的动词次范畴获取算法,并分别使用了两种不同的句子相似度获取算法:向量空间模型和基于词类串句子结构相似度获取算法,用于动词次范畴类获取。经过实验对比分析,我们确定在研究中采用了基于词类串相似度获取的方法,并对其进行了初步改进。4、我们在获取过程中,加入权值训练算法,对基于词类串句子结构相似度获取算法中使用的词性权值进行训练,通过训练将待分类语料中的词性结构所表现的该语料次范畴特征作为先验知识引入分类过程,使算法整体性能得到了提高,同时也使该算法能够真正面向大规模真实语料次范畴信息的获取。同时我们对获取算法进一步改进,修正了各SCF类在句式结构上存在的相互转化关系对获取带来的不利影响,极大的提高了单类次范畴信息获取的正确率和召回率,在一定程度上改善了次范畴化自动获取的整体性能。本文以《人民日报》98年1月语料库作为测试对象,基于上述研究内容,设计完成了一个面向真实语料的句子级别动词SCF类获取原型系统,并进行了测试。结果表明本文提出的方法在开放测试时,最终分类的精确率在73%左右,性能较好,能够满足大规模真实语料进行次范畴获取的需