基于统计的自然语言处理

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:qq414363439
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
统计语言模型已经成功地应用于语音识别,拼写纠正,机器翻译,信息检索等许多自然语言处理领域。怎样将语言学知识与统计模型融合起来是当前自然语言处理研究中的一个热点,也是一个十分困难的问题。本文在这方面进行了比较深入的探索,研究的内容包括:基于词类的N元统计模型、词性标注模型、句法分析统计模型等,并取得了以下几项研究成果:1、在统计语言模型中,词的聚类是解决数据稀疏问题的主要方法之一。传统的统计聚类方法通常基于贪婪原则,以语料的似然函数或困惑度作为判别函数。这种传统方法的主要缺点是聚类速度慢,初值对结果影响大,易陷入局部最优。本文提出的分层聚类算法基于词的相似度,词集合的相似度,自下而上,能得到全局最优的结果;且计算复杂度远远小于传统的基丁贪婪原则的聚类方法,以相对非常小的计算代价获得了相对较好的聚类效果。 2、本文给出了两种词相似度定义:一种定义在有邻接关系的词之间的互信息基础上,这种相似度的计算只要利用已分词的语料库即可,但这种相似度的定义没有考虑词之间实际的语义、语法依存关系,因而建立在这种相似度定义基础上的聚类模型适用于对句子进行初步的分析;另一种将语言知识与统计方法结合起来,定义在有语义、语法依存关系的词之间的互信息基础上。该相似度的计算要利用己标注了句法结构的语料库,这种定义充分考虑了词之间语义、语法关系,建立在该种定义基础上的聚类模型可用于对句子进行句法结构分析。 3、基于类的n-gram模型牺牲了一部分预测能力。由于类的数目远小于词,因此可以适当的提高n值来改善系统性能。但这种方法也有一些缺点:模型参数随n指数增加,大大增加系统在存储和计算方面的开销,同时也会带来新的数据稀疏问题。为解决这一问题,本文提出了一种绝对权重差分方法,并用这种方法构造了一种可变长语言模型,该模型具有良好的预测性。 4、本文首次提出一种统计模型,即马尔可夫族模型,该模型假定一个词出现概率既与当前词的词性标记有关,也与它前面的词有关,但其前面的词和该词词性标记关于该词条件独立。将马尔可夫族模型加以适当的简化,能成功地用于词性标记,实验结果证明:在相同的测试条件下,这种基于马尔可夫族模型的词性标注方法标记成功率大大高于传统的基于隐马尔可夫模型的词性标注方法,且计算复杂度与基于隐马尔可夫模型的词性标注方法相同。 5、本文建立了一种能充分利用语义、语法等语言知识,同时考虑了邻接等上下文关系的句法分析统计模型。概率上下文无关语法中由概率的上下文无关性假设和祖先结点无关性假设引起的问题在该模型中得到很好的解决。与Collins的头驱动句法分析模型相比较,该模型也有几个明显的优点:(1)词性标注既考虑了句子中的语法依存关系,也考虑了有邻接关系的词的词性标记之间的关系;(2)该模型建立在聚类的基础上,数据稀疏问题不严重;(3)该模型可同时考虑几种语义依存关系。该统计模型在用于句法分析的同时,还能进行词性标注、分词等工作.该模型在用于句法分析时包括两个主要阶段:先利用其它的句法分析方法(如上下文无关语法)进行句法分析,得到所有可能的句法树;再利用该模型对句法树进行选择。 6、本文成功地建立了一种新颖的句法分析模型。该句法分析模型基于规则与统计方法相结合,将语法、语义、语用等语言学知识融入句法分析;该句法分析模型是一个模型框架,具有规则和统计相结合,多个统计模型相结合的特点;该句法分析模型利用层次分析的思想,在层次分析的不同阶段,根据不同的语法、语义、语用特性采用不同的方法和不同的统计模型来解决问题。
其他文献
超宽带(UWB)技术在无线通信领域中有着巨大的应用潜力。IEEE802.15.3协议是UWB(Ultra-wideBand)系统MAC层的最佳侯选技术已无庸置疑。本文内容主要分两个部分,前半部分是理论
学位
截获水声脉冲信号方位估计是被动声纳截获侦察系统的重要任务之一。截获侦察系统工作在非合作条件下,目标信号的类型和参数均未知,而且系统要在很宽的频带内都能正常工作,因而如
下一代网络的一个重要特点是开放性。ForCES是IETF路由领域的一个工作组,它专门研究开放可编程IP路由器的体系结构和协议问题。其基本思想是:将路由器的转发件(FE)与控制件(CE)
近几十年以来,随着半导体技术和计算机技术的不断发展,无线通信已经逐渐成为人类日常生活中不可缺少的组成部分,而大量的用户需求反过来又促进了无线通信的发展。 随着声音、
本文对基于DSP的虹膜识别系统的实现进行了研究。文章提出了基于TMS320DM642DSP的虹膜识别系统,论述了系统的总体设计思想和框架,以模块化的方式详细阐述了各部分的结构、功能
论文的研究对象是:针对浅地层探地雷达的信号处理和信号采集处理机设计。信号采集处理机和信号处理是探地雷达系统的“大脑”和“思维”。首先简单介绍了探地雷达的系统构成
学位