汉语文本自动分词和词性标注系统的研究与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:Tiramisu_smile
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文研究了自动分词和词性标注系统可以为短语识别、句法分析提供较好的基础,尤其为短语识别提供了较丰富的分词标注信息以及词频等资源.作为面向实用化系统的一部分,该课题的算法也对时间和空间的复杂度进行了考虑.该文从如下几个方面进行了分词和词性标注的研究:首先分析了国内外自动分词、未登录词识别和词性标注的相关研究及该领域的发展趋势后,给出了分词岐义和词性标注的意义,分析了分词岐义各类岐义产生的原因,研究了未登录词识别的各种算法及其资源,并以此为基础强调了上下文环境对于未登录词识别和分词岐义消除的重要性.未登录词识别和分词岐义消除是该文研究的重点.为了满足系统对时间复杂度的要求,该文采用动态规划算法以及深度优先处法算法实现以上系统.为了方便下一级的工作,笔者将分词和词性标注做成一个基类,使下一级的工作可以应用面向对象的方法开发下去.
其他文献
虚拟现实技术是一系列高新技术的汇集,涉及人工智能、计算机图形学、人机接口技术、多媒体技术、传感技术以及高度并行的实时计算技术等领域.分布式虚拟现实(Distributed Vi
该文主要内容涉及到基于XML的电子数据交换技术及数据库的XML信息:1.远程过程调用(RPC)与XML;2.基于XML的脚本组件模型;3.基于XML的数据库Internet信息发布;4.基于XML的电子
首先对血吸虫病的流行规律和影响因素进行了分析研究,传统预测理论应用于血吸虫病预测研究中,面临挑战,该研究提出了以灰色系统理论作基础,对决策支持系统建立中的关键问题进
自70年代中期开始提出多数据库集成问题以来,多数据库集成技术得到了普遍的关注,同时也在计算机应用的诸多领域有着广泛的应用需求,尤其是它在计算机集成制造系统(Computer I
该文以HPC++语言进行了简单的描述,并详细介绍了HPC++语言的数据并行部分,在对HPC++数据并行研究的基础上,论文讨论了如何对任务并行语句PAR的扩充.在实现PAR语句时,研究人员
该文首先介绍了专家系统的产生、发展和现状,详细地阐述了构造专家系统的基本技术,包括知识获取、知识表示、推理机制和解释机制,在并此基础上,论述了正向推理和反向推是策略
分布式人工智能(DAI)是人工智能的前沿课题,开放的多智能体系统(MAS)是分布式人工智能的重要研究方面.该文研究的重点是开放的多智能体系统的通讯问题.它包括通讯方式和通讯
多通道界面使用多种交互设备(语音、手势、视线跟踪等),扩大用户的输入带宽,提 高用户的交互效率.当前Internet和LAN上的网络应用有三个特点:浏览器以Web为主 ,集成了Interne
并行处理已成为现代计算机科学与技术的重要研究领域.作为并行处理的重要分支,数据并行技术被广泛应用于大规模科学与工程计算.群机系统(COW)的迅速发展使其成为并行计算系统
该文详细讨论了在光纤同轴混合网(HFC)上实现视频点播系统的各种相关问题,概要描述了曙光VOD的实现方案,着看点在于基于HFC并满足MPEG-2/DVB标准的视频点播系统与普通视频点