论文部分内容阅读
词法分析是自然语言处理领域中最基础的处理步骤,尤其对汉语这种没有分割符的语言来说更是如此。本文研究的汉语词法分析主要包括自动分词、词性标注和词义相似度计算三个方面。词法分析是句法分析的先期处理步骤,其错误会沿处理链条扩散,并最终影响信息检索、机器翻译等面向最终用户的应用系统的质量;同时,词法分析所用的技术也可以直接应用到音字转换和语音识别等应用系统中,所以对它的研究具有极其重要的意义。
本文在统计语言模型方面主要探讨了N-gram模型、最大熵模型、支持向量机模型和矢量空间模型。重点研究了三个方面的内容:传统N-gram模型的改进方法;利用触发对提高矢量空间模型的质量;在最大熵模型中加入转换触发对特征。最后利用以上统计语言模型的研究成果对汉语词法分析进行了深入研究。主要内容包括四个方面:
第一、从两个方面改进了传统N-gram模型。
第二、分词是汉语词法分析中最基本的步骤,所有的汉语自然语言处理都要基于分词的结果。
第三、词性标注可以看成是噪声信道的解码问题。传统的HMM模型有两个缺点:首先它用联合概率解决一个条件概率问题,而且它不能包含长距离词法特征。针对以上问题,本文分别利用支持向量机模型和最大熵模型对复杂兼类词标注进行了研究,试验结果证明两种模型都可以有效降低兼类词标注的错误。在此基础上,利用最大熵模型对基于句子的词性标注进行了研究,重点研究了长距离聚类转换触发对“wA→wB/tB”特征的加入以及用于系列分类的BeamSearch搜索算法。最后,利用与词性标注相同的技术对音字转换做了初步的探讨,主要试验了简单和复杂两种特征模板。
第四、词义是词法分析中的核心问题,本文重点利用矢量空间模型对词义相似度计算进行了研究。