论文部分内容阅读
自然语言理解是人工智能领域中一个重要的研究方向,而歧义问题是自然语言理解中的一大难题。分词,是中文自然语言理解的前期步骤,分词的准确性直接影响后期自然语言理解各阶段的准确性。 本文的主要研究目标是:单字副词与单字动词通常会组合在一起,形成一个常见词汇,从而在分词过程中产生组合型歧义。针对这个问题,提出一种基于统计与规则相结合的消歧方法,通过建立统计与规则相结合的消歧模型,实现对单字副词组合型歧义问题的有效处理。 单字副词通常会与动词组成固定搭配词,该词在语料中也经常出现,这种现象会导致组合型歧义问题的产生。本文选取若干单字副词,从以下几个方面进行了研究: 首先,对大量歧义现象进行分析,通过对统计模型的分词原理进行研究,发现统计模型处理单字副词组合型歧义问题时,结果是不理想的。因为这种歧义是由副词引起的,并且带有组合型歧义的特性,所以本文以这种思想为原则,通过引入概念从属树和知识表示方法等理论,针对不同的单字副词建立相应的消歧规则,构建消歧规则库。 其次,本文对语料库中所有包含单字副词的搭配词进行统计,构建了一个搭配词典,在使用统计模型分词系统对文本进行初步分词后,根据词典信息对分词结果进行分析,若结果中有歧义字段出现,则对歧义字段进行规则处理。对于没有歧义字段的文本,使用统计模型的分词结果作为输出。将整个消歧流程进行整合,然后从语料库中选取一些句子,使用该消歧模型进行处理,将该消歧模型的处理结果与其他基于统计模型的分词系统的处理结果进行对比,对该模型的性能进行验证,发现其性能明显优于统计模型的分词系统。 最后,将本文构建的消歧模型应用到了智能机械制造系统的自然语言理解模块,辅助机械系统进行需求分析,从而设计出合理的机械加工工艺流程。