【摘 要】
:
目前,在中文信息处理领域中,对字和词的研究已经趋于成熟,相应的研究成果得到了广泛地应用。复句在汉语句法中具有相当重要的地位,而复句关系词又是小句连接的重要手段,因此,
论文部分内容阅读
目前,在中文信息处理领域中,对字和词的研究已经趋于成熟,相应的研究成果得到了广泛地应用。复句在汉语句法中具有相当重要的地位,而复句关系词又是小句连接的重要手段,因此,对复句进行深入研究始终离不开复句关系词。复句关系词的研究是以关系词的自动识别为基础的,目前主流的方法是基于规则和统计模型相结合的方法。虽然现在对复句关系词的自动识别已经取得了较好的效果,但准确率还有待提高。原因之一是关系词识别是基于分词工具进行的,词语切分和词性标注的错误,往往会给识别结果造成一定的误差。针对这一问题,本文提出了一种基于规则和VSM相结合的复句关系词切分歧义的消解算法。本文首先利用中科院的NLPIR汉语分词系统对汉语复句标注语料库进行词语切分和词性标注的预处理,对预处理后的复句语料进行统计和分析,总结出复句关系词切分歧义字段的范围、性质和分布情况,根据切分歧义字段的表现形式对其进行归纳分类;其次,对切分歧义字段进行定量分析,抽象出特征规律,并将这些特征规律形式化为规则,利用总结的规则识别复句关系词的歧义字段;然后,根据VSM的特点,分别构造训练集和测试集,通过训练集利用CHI方法确定词性矩阵的大小,得到分类效果最优的上下文范围;最后,选择词性作为特征项,构造出词性矩阵和待消歧义字段的上下文向量并分别映射到n维空间中,通过计算上下文向量到每个词性向量的距离,以距离最近的词性向量所代表的词性类型来标注该歧义字段,从而达到整个消歧的目的。实验表明,基于规则和VSM的方法对复句关系词切分歧义的消歧取得了较高的正确率,消歧的正确率达到了 95.94%,表明本文提出的方法是可行的、有效的。
其他文献
钛氧簇合物是一类极具发展潜力的晶体材料,可作为催化剂应用于光催化反应之中。但由于其结构的复杂性,使得目前对其应用的研究仍处于发展阶段。基于此,本文将从钛氧簇结构的
重金属污染土壤中含有大量铬、镉、铅、铜、锌等元素,这些元素通过生物富集作用对人体健康产生严重的危害。因此,寻求一种能够实现对污染土壤中重金属元素快速、准确的检测方
葎草酮是啤酒花中的一种天然苦味酸,具有抗菌、消炎、镇痛、抗肿瘤等药理活性,一般由提取法制备。随着合成生物学和生物工程技术的不断进步,应用工程菌通过发酵法制备天然活
同步是数学、物理、生物等学科在非线性问题研究中的一个非常重要的问题,目前已广泛应用到图像处理,激光技术,通信工程等众多领域,而振子间的同步现象作为耦合振子的一个重要
多维随机变量间的相依性是统计分析的一个重要指标,常用于不同领域的统计分析,例如:金融领域、时间序列中的条件概率领域等,尤其是在大数据时代,随机变量间的相依性越来越被
矩阵空间上的保持问题具有很长的发展历史,它主要涉及刻画能够保持矩阵或者算子中某些代数性质的映射.线性保持问题是保持问题中最基本、最常见的问题.其重要性一方面归因于
本文在E-三角范畴中研究了与子范畴相关的有限分解及加法商范畴第一章介绍了本文的研究背景与主要结论,并列出了本文所需要的一些基本概念和事实.第二章引入了 E-三角范畴中
岩体在漫长的地质历史时期经历了复杂的地质改造作用,使得岩体发育了多种形式的结构面,如断层、夹层、节理、裂隙等不连续面。由于节理岩体中发育着大量的结构面,这些非连续
鲜水河断裂位于四川省内,属于青藏高原内部巴颜喀拉和川滇块体的边界,区域断层活动剧烈,地震发生频繁,地震危险性较高。其西北段断层发生过多次M7大地震,如1893年八美地震、1
传统的位移法的位移结果精度较高,计算机资源占用小,计算效率较高,所以在大的工程问题分析中应用较为广泛。但是,由于位移结果微分运算的存在导致应力结果跳跃不连续且应力结