最大熵与隐马尔可夫模型结合的英语词性标注研究与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:chi421
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文对词法分析和词性标注这两个问题进行了深入的研究,并根据各自的特点提出了相应的解决方案. 英语词法分析包含两个部分:句子边界识别和形态还原.自然语言的语法规则都是对独立句子而言的,因此句子边界识别造成的错误会引起句法分析的错误,也是一个导致最终翻译结果不正确的原因.有效准确地确定句子边界是进行机器翻译前对文本预处理的重要步骤.该文提出了决策树与错误驱动相结合的方法进行句子边界识别,取得了良好的效果.对于形态还原,由于在英语中单词的形态变化是有语法规则可依的,该文主要借助英语特有的形态还原的规律,以单词不同的词形变化和一些特殊符号来分类,利用知识库进行分析,采用分治的方法对各类问题进行相应的处理. 词性表示词的语法属性,是构成自然语言结构和进一步进行句法分析的基础.在研究英语词性标注时,该文提出了将最大熵与三元隐马尔可夫模型相结合的方法进行词性标注.针对模型中面临的数据稀疏问题,该文首先在统一的研究平台上比较分析了各种典型的参数平滑算法的优劣,并选择线性插值来平滑HMM的转移概率.针对传统隐马尔可夫模型中对于词性的约束过于简单的问题,该文在最大熵框架下,对影响发射概率的上下文特征进行选择,采用最大熵模型对发射概率进行估计,尽可能体现上下文的词性与单词特征对于发射概率的影响.综合两个模型各自的优势应用于英语词性标注,最终提高词性标注的精度.
其他文献
该文用16个金属氧化物半导体气敏传感器和神经网络分类方法建立了一种新的嗅觉模拟装置,开发了一套功能较完善的系统控制软件,并对该装置的实验条件和参数进行了研究.该文重
本文对高性能集群计算机系统和PC机群两种体系结构上的并行体绘制算法和基于图像的并行绘制技术进行了研究和探讨。首先对三维数据场并行绘制的研究现状进行了综述。介绍了体
随着自动语音识别从孤立词发展到大词汇量连续语音,发音词典已成为这类系统的重要组成部分之一,它一方面对语言模型有着影响,又在词层次上约束声学模型。当前,如何确定发音词典,即
该文提出了一种基于范例的程序理解方法.其中着重在程序抽象表示方法和相似度衡量上进行了研究.第1章主要介绍程序理解的概念和什么是基于范例推理.第2章探讨了应用基于范例
基于惯性和磁的微型姿态传感器可以为游戏、虚拟现实、交互学习、卡通及电影特效提供重要的三维姿态信息。尤其是最近几年,随着微机电系统(micro-electro-mechanicalsystems,ME
信息提取(Information Extraction)技术在对互联网(Web)进行信息挖掘和从Web向语义网进行数据迁移的过程中,具有重要的作用.而作为语义网核心技术的本体论方法具有改进信息组
目前,在全球流媒体领域,从事于集群高性能流媒体服务器的研究和开发并不很多,很多流媒体服务器生产厂商研究的重点是在单机流媒体服务器上,并不是集群高性能流媒体服务器.该
随着电子商务应用的需求和Internet上企业级应用的迅速发展,Web应用服务器成为研究热点。它以网络分布式计算的底层技术为基础,将用户接口、业务逻辑和后端服务分离,提供一个创
该文详细阐述了功能级超标量模拟器HOPE-I的设计与实现.HOPE-I模拟器为目标系统的基线模型,采用执行驱动技术实现,可运行用户级程序,其具有软件结构模块化、参数可配置、时序
该文首先介绍了网络考试资源挖掘的基本概念,然后重点讨论了如何在网络考试资源中应用数据挖掘技术,即通过分析考试数据服务器上的考试资源得出有价值的信息,以及为网络考试