基于统计语言模型的汉语词法分析研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:Dark_tomato
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  词法分析是自然语言处理领域中最基础的处理步骤,尤其对汉语这种没有分割符的语言来说更是如此。本文研究的汉语词法分析主要包括自动分词、词性标注和词义相似度计算三个方面。词法分析是句法分析的先期处理步骤,其错误会沿处理链条扩散,并最终影响信息检索、机器翻译等面向最终用户的应用系统的质量;同时,词法分析所用的技术也可以直接应用到音字转换和语音识别等应用系统中,所以对它的研究具有极其重要的意义。   本文在统计语言模型方面主要探讨了N-gram模型、最大熵模型、支持向量机模型和矢量空间模型。重点研究了三个方面的内容:传统N-gram模型的改进方法;利用触发对提高矢量空间模型的质量;在最大熵模型中加入转换触发对特征。最后利用以上统计语言模型的研究成果对汉语词法分析进行了深入研究。主要内容包括四个方面:   第一、从两个方面改进了传统N-gram模型。   第二、分词是汉语词法分析中最基本的步骤,所有的汉语自然语言处理都要基于分词的结果。   第三、词性标注可以看成是噪声信道的解码问题。传统的HMM模型有两个缺点:首先它用联合概率解决一个条件概率问题,而且它不能包含长距离词法特征。针对以上问题,本文分别利用支持向量机模型和最大熵模型对复杂兼类词标注进行了研究,试验结果证明两种模型都可以有效降低兼类词标注的错误。在此基础上,利用最大熵模型对基于句子的词性标注进行了研究,重点研究了长距离聚类转换触发对“wA→wB/tB”特征的加入以及用于系列分类的BeamSearch搜索算法。最后,利用与词性标注相同的技术对音字转换做了初步的探讨,主要试验了简单和复杂两种特征模板。   第四、词义是词法分析中的核心问题,本文重点利用矢量空间模型对词义相似度计算进行了研究。
其他文献
随着Web技术越来越深地融入各行各业,一些传统C/S构架下的语音调度系统被语音调度Web平台代替。这类Web系统对各种状态信息的更新十分敏感,因此新的Web系统下急需解决的一个
自从1994年USB规范被提出以来,USB技术已经得到了非常广泛的应用。各种USB设备层出不穷,在音频设备、通信设备、人机接口设备、大容量存储设备上都有了USB接口的身影。USB的
在我国众多大城市普遍存在交通拥挤问题,造成交通拥挤的首要原因是城市交通基础设施的建设远远落后于城市交通需求的增长。大力发展公共交通是解决城市交通拥挤问题的首选措施
在人工免疫系统中,匹配规则是算法模型的一个核心部件,但存在缺点,即参数亲和力阈值难以设定以及因固定设置而失去自动适应“自我”的改变。本论文通过模拟T细胞的培育机制,
人体软组织及器官的切割仿真是虚拟手术仿真的重要组成部分。软组织及器官的几何模型普遍采用四面体模型。在切割过程中,软组织及器官的拓扑结构发生变化,模型中的部分四
当前通信网络带宽和处理能力的提高使网络能提供更多的多媒体业务,其中许多业务都要求网络具有多播(multicast)能力,例如音频/视频会议、交互式仿真、多人游戏、分布式数据库
网络安全问题已经成为当今计算机网络发展所迫切需要解决的问题,防火墙技术是保障网络安全的重要手段之一。传统防火墙部署在网络的边界上,依赖网络的物理拓扑结构来保护内部
逻辑程序是知识表示和非单调推理研究的重要领域。本文的研究背景是包含否定的逻辑程序。论文介绍了逻辑程序语义研究的现状,综述了过程性语义的研究,并给出了扩展逻辑程序的弱
本文在智能手机项目组的研发工作中,深入分析了ARM-Linux与uCLinux的内核,并在三星S3C44B0X CPU上成功移植了uCLinux。通过对现有uCLinux实时化技术的分析,提出了一种对uCLinux
三维场景的信息采集、捕获及对目标物体的绘制一直以来是计算机视觉与计算机图形学研究的热点之一,目的是为了让计算机像人一样感知场景、获得信息,能够精确、快速再现和还原场