越南语依存句法分析中的歧义消歧方法研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:xpzcz1995
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
句法分析是自然语言处理中的底层关键技术之一,其基本任务是确定句子的句法结构或者句子中各词之间的依存关系。目前,句法分析方法已经从句法结构分析转向依存句法分析。现存的汉语英语等大语种的依存句法分析研究都已经相对成熟,但在类似越南语的小语种方面,由于网上公布的语料稀少,导致实验性能不高,而且现有的越南语依存句法分析方法都忽略了歧义现象对句法分析的影响。为了实现效果更好的越南语依存句法分析方法,本文着重考虑了越南语依存句法分析中歧义现象的影响,对这些歧义现象进行了分析总结。根据分析的结果,选择从词性标注和名词短语块识别入手,将其结果作为特征用于越南语依存句法分析中。具体内容分以下几个方面:针对越南语词性标注问题,提出了结合兼类词词性消歧模型和词性字典的方法进行越南语词性标注方法。利用词性字典生成兼类词字典,同时利用词性字典对语料进行初步的标注,用于后续过程。通过对越南语中兼类词的分析,选取上下文词特征,上下文词性特征以及前置词特征融入CRF模型中,构建兼类词词性消歧模型。在进行词性标注时,将兼类词与非兼类词进行分别标注,非兼类词使用词性字典标注,兼类词和未登录词使用消歧模型标注,最终将两种结果进行合并,得到最终结果,实验准确率为95.73%。针对越南语名词短语块识别问题,提出了结合BiLSTM-CRF模型和约束规则的越南语名词短语块识别方法。将上文中得到的词性标注作为特征,以拼接的形式融入模型的输入向量,并选用针对序列标注问题效果较好的BiLSTM-CRF模型用于本文的名词短语块识别。最后在模型的输出层融入对越南语名词短语块进行分析后得到的约束规则,对模型进一步优化,得到最终结果。实验准确率、召回率和F-值分别达到88.08%、88.73%和88.40%。针对越南语中的依存句法分析问题,提出融合词性特征和名词短语块特征的越南语依存句法分析方法。通过对依存句法分析中的歧义现象进行分析,将上文得到的词性标注和名词短语块标记作为特征融入模型。为了更好的将特征融入模型在,选用基于序列标注的句法分析方法以及适用于句法分析的AttentionBiLSTM模型。模型的输入向量为两个特征向量和词向量拼接而成的。实验的依存弧准确率和标识准确率达到85.76%和85.18%。
其他文献
近年来,在勘探的不断深入和精度要求不断提高的背景下,需要在全区三维地震资料连片处理解释的基础上,深化辽东湾探区地质特征认识,提高勘探成功率,推动辽东湾探区勘探的再次
行人再识别是智能监控系统中一个重要的应用,其具体指在跨一对或多对摄像头的情况下将同一行人识别出来。在多摄像头监控环境下的目标追踪系统中,同摄像头内的目标可以依靠跟
精矿品位是选矿产品最重要的品质指标。然而,到目前为止,浮选精矿品位还难以实现在线检测。在实际的工业浮选过程监测中,精矿品位主要依赖于人工采样实验室化验,造成品位监测
石墨烯是由碳原子组成的一种理想二维纳米材料,具有超高电子迁移率和热导率、优良的导电性、理想的透光性以及其它奇特的物理性质。外加偏置电压或化学掺杂可以动态调节石墨
近些年来,由于多飞行器编队控制、协调控制、姿态调整等方面的广泛应用,多智能体网络的一致性问题已经成为一个热门的研究领域。针对多智能体只能在一系列离散时刻获得和相邻
随着红外伪装技术与红外探测技术的发展,同时红外成像探测设备不断的更新,这使得红外探测系统的空间探测率和光谱的分辨率进一步增加,从而导致目标装备在红外伪装中面临越来
随着光纤传感技术的迅猛发展,其在安防领域的应用也逐渐显现出与众不同的优势。但在光纤周界安防系统中,人为入侵事件经常被误判为非人为入侵事件,这样不仅浪费掉大量的人力
随着电子科技的快速发展,存储技术也在不断地更新。近些年来,NAND闪存因其具有高性能、低功耗等特点被广泛的应用在电子产品中。但是随着NAND闪存工艺的进步以及MLC、TLC存储
随着高速光网络的不断发展,OTN信号速率不断提高,载荷类型不断增加,网络空间安全态势更加复杂。针对网络安全和态势感知的需求,非协作条件下的载荷获取作为重要的技术问题,成
数字存储产业属于高新产业。Flash技术作为高密度存储技术的代表以绝对优势成为各个领域的应用主流。由于Flash技术的突破传统平面Flash已经发展到了存储容量更大的3D Flash