面向真实语料的汉语动词次范畴化自动获取的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:etoy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
动词次范畴化信息反映了动词作谓词时所表现出来的不同句法特征的分布,作为自然语言处理进一步发展所不可或缺的知识,汉语中的相关研究还很薄弱。探索面向真实语料的汉语动词次范畴化自动获取方法对于中文信息处理来说具有重要的理论研究意义和广阔的应用前景。现有的句子级别的汉语动词次范畴信息(简称SCF)获取技术还存在很多不足之处,分类获取精度不高。本文在国内外已有相关成果的基础上,对句子结构中包含的次范畴信息进行分析,探索各类相关算法,对面向真实语料的句子级别汉语动词次范畴信息进行分类获取,提高其获取精度。本文在探索分类获取方法的研究过程中,主要从如下几个方面展开:1、对已有的基于手写规则推导,通过统计过滤获取SCF分类信息的方法进行了分析,探讨其产生错误的原因。并简要介绍了次范畴化自动获取的评价机制。2、研究并提出了使用支持向量机模型,建立最优分类面,通过二类分类器,分别获取各次范畴分类的方法,并通过实验验证其可行性。3、针对支持向量机方法在自动获取性能方面的不足,探索提出了基于相似度计算的动词次范畴获取算法,并分别使用了两种不同的句子相似度获取算法:向量空间模型和基于词类串句子结构相似度获取算法,用于动词次范畴类获取。经过实验对比分析,我们确定在研究中采用了基于词类串相似度获取的方法,并对其进行了初步改进。4、我们在获取过程中,加入权值训练算法,对基于词类串句子结构相似度获取算法中使用的词性权值进行训练,通过训练将待分类语料中的词性结构所表现的该语料次范畴特征作为先验知识引入分类过程,使算法整体性能得到了提高,同时也使该算法能够真正面向大规模真实语料次范畴信息的获取。同时我们对获取算法进一步改进,修正了各SCF类在句式结构上存在的相互转化关系对获取带来的不利影响,极大的提高了单类次范畴信息获取的正确率和召回率,在一定程度上改善了次范畴化自动获取的整体性能。本文以《人民日报》98年1月语料库作为测试对象,基于上述研究内容,设计完成了一个面向真实语料的句子级别动词SCF类获取原型系统,并进行了测试。结果表明本文提出的方法在开放测试时,最终分类的精确率在73%左右,性能较好,能够满足大规模真实语料进行次范畴获取的需
其他文献
随着计算机应用的普及和互联网的发展,面对互联网海量的信息,如何找出自己感兴趣的内容越来越困难,搜索引擎应运而生。而当搜索引擎把海量网页信息获取之后,文件的存储、管理
随着电信技术迅猛发展、网络规模的不断扩大,网络设备的数量和种类也不断增加,这些对电信网络管理就提出了更高的要求。 通过对网络设备中性能参数的定时收集和分析,管理员不
广播电台各个业务系统之间信息流通不畅、缺乏互联标准,为了解决这些问题,提出了All-In-One。All-In-One是一个技术框架,在此框架下,广播电台的播出系统、制作系统、广告管理
指纹识别是因为其悠久的历史以及较高的识别精确度,成为了目前最成熟的生物特征识别技术之一,并被广泛的应用到各个领域当中。然而直到目前为止,非理想条件下指纹识别中仍存在一
本文对基于Internet协作学习系统的设计与实现进行了研究。主要包括以下四个方面的内容: 第一,提出了系统的总体框架的,包括系统中用户角色的设计、用户活动空间的设计等。
生物特征识别技术是一项利用人类特有的生理或行为特征来进行身份识别的技术,它提供了一种可靠、稳定性高的身份鉴别途径。时—频分析工具和线性判别方法是人们关注的两个生
人才评价平台是根据当前人才测评需要和实际测评流程而开发的,为各种专业人才评价业务提供统一管理的系统平台。通过对人才评价业务中信息和过程的管理,实现系统整合和资源、知
电容层析成像技术ECT(Electrical Capacitance Tomography)是近年来获得了快速发展的一种多相流在线检测成像技术,它具有成本低、适用范围广、采集速度快、非侵入式、操作方便和
随着互联网的普及和电子商务的发展,电子商务系统在为用户提供越来越多选择的同时,其结构也变得更加复杂,用户经常会迷失在大量的商品信息空间中,无法顺利找到自己需要的商品。电
工作流管理联盟(WFMC)早在1995年就提出了工作流参考模型和一系列的接口规范,在近几年的发展中,工作流的理论日趋成熟.随着面向对象技术和分布式计算的发展,特别是Java技术以