论文部分内容阅读
句法分析是自然语言处理中的底层关键技术之一,其基本任务是确定句子的句法结构或者句子中各词之间的依存关系。目前,句法分析方法已经从句法结构分析转向依存句法分析。现存的汉语英语等大语种的依存句法分析研究都已经相对成熟,但在类似越南语的小语种方面,由于网上公布的语料稀少,导致实验性能不高,而且现有的越南语依存句法分析方法都忽略了歧义现象对句法分析的影响。为了实现效果更好的越南语依存句法分析方法,本文着重考虑了越南语依存句法分析中歧义现象的影响,对这些歧义现象进行了分析总结。根据分析的结果,选择从词性标注和名词短语块识别入手,将其结果作为特征用于越南语依存句法分析中。具体内容分以下几个方面:针对越南语词性标注问题,提出了结合兼类词词性消歧模型和词性字典的方法进行越南语词性标注方法。利用词性字典生成兼类词字典,同时利用词性字典对语料进行初步的标注,用于后续过程。通过对越南语中兼类词的分析,选取上下文词特征,上下文词性特征以及前置词特征融入CRF模型中,构建兼类词词性消歧模型。在进行词性标注时,将兼类词与非兼类词进行分别标注,非兼类词使用词性字典标注,兼类词和未登录词使用消歧模型标注,最终将两种结果进行合并,得到最终结果,实验准确率为95.73%。针对越南语名词短语块识别问题,提出了结合BiLSTM-CRF模型和约束规则的越南语名词短语块识别方法。将上文中得到的词性标注作为特征,以拼接的形式融入模型的输入向量,并选用针对序列标注问题效果较好的BiLSTM-CRF模型用于本文的名词短语块识别。最后在模型的输出层融入对越南语名词短语块进行分析后得到的约束规则,对模型进一步优化,得到最终结果。实验准确率、召回率和F-值分别达到88.08%、88.73%和88.40%。针对越南语中的依存句法分析问题,提出融合词性特征和名词短语块特征的越南语依存句法分析方法。通过对依存句法分析中的歧义现象进行分析,将上文得到的词性标注和名词短语块标记作为特征融入模型。为了更好的将特征融入模型在,选用基于序列标注的句法分析方法以及适用于句法分析的AttentionBiLSTM模型。模型的输入向量为两个特征向量和词向量拼接而成的。实验的依存弧准确率和标识准确率达到85.76%和85.18%。