基于规则和条件随机场的中文命名实体识别方法研究

被引量 : 0次 | 上传用户:zhuang321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别的任务就是将文本中指定的实体名自动识别出来,在自然语言处理领域,它是一项基础性的研究工作,在信息抽取、信息检索、机器翻译、自动问答领域有着非常广泛的应用,命名实体识别研究具有重要的理论意义和实践价值。本文采用基于规则和条件随机场模型(CRF)的方法来进行中文命名实体识别研究。本文深入分析了国内外命名实体识别研究的相关技术,在分析和比较了基于规则的方法、基于隐马尔可夫模型的方法、最大熵模型以及条件随机场模型之后,提出了采用基于规则和条件随机场相结合的中文命名实体识别研究方案。在命名实体识别过程中,由于数词和时间词的表达结构较为规范,所以采用基于规则的方式来进行识别;同时考虑到人名、地名和机构名的不规则性,而采用条件随机场模型,大量的命名实体识别研究表明,基于单个汉字提取上下文特征能够取得更为丰富的特征值,所以在本文中以字为单位进行文本切割,获取每个字的上下文特征,然后采用条件随机场进行机器学习,最终实现对句子中包含的组织机构名、人名和地名的自动识别。在模型的训练过程中,采用多种不同的模板进行训练,选择效果最佳的模板,这在一定程度上提高了实体识别的效果。本文主要的工作分为三点:1.采用人民日报的语料库,借用谢菲尔德大学的开源软件GATE框架定义识别规则,自动识别出语料中的时间词和数词。2.采用条件随机场模型,选取不同的特征,对不同的特征模板进行比较选出最优的一个,完成对组织名、人名、地点的识别,最后与正确的人工标记结果进行比较,测评出准确率和召回率、F值。3.将基于规则和基于条件随机场结合起来对不同的命名实体进行识别,并设计了一个系统,实验结果表明,基于规则和条件随机场来进行命名实体识别可以取得较好的识别效果。
其他文献
利用批处理脚本对保存于文本文件中日程提醒数据进行解析和处理,结合使用任务计划的定时重复执行功能,给出一种在XP操作系统下通过批处理脚本实现日程提醒的简洁方法。
在三维强风暴动力—电耦合数值模式中引入基于Saunders et al.(1991)实验结果的非感应起电参数化方案S91,在此基础上,利用云水饱和度替代环境温度和有效液水含量将S91方案变
<正>近日,又一款iPhone配件产品惊艳亮相,它就是苹果全球战略伙伴及授权品牌MiLi推出全球首款iPhone打印机--MiLiPhoto Printer。在众多iPhone配件中,此前打印机一直是一个空
党的十八大以来,生态文明建设受到前所未有的重视,上升到中国特色社会主义事业“五位一体”总体布局的战略位置,扶贫开发也进入了“精准扶贫”新阶段,在此背景下生态扶贫就成
随着煤矿数字化程度的提高,能够提供高速率数据业务无线通信系统将是煤矿无线通信的发展趋势。针对此,首先介绍了煤矿企业对高速率无线通信系统的迫切需求,分析了LTE技术的特
<正>新媒体的出现对很多领域造成了一定程度的冲击,甚至颠覆了某些行业的发展轨迹。例如公益广告领域,传统媒体下的公益广告表现形式较为单一,传统媒体的受众面也有限,新媒体
在WEB程序开发中,几乎离不开对数据库的操作。数据库在数据的查询、修改、保存与安全方面扮演着重要的角色。本文介绍在JSP开发WEB项目中利用JDBC驱动对数据库进行访问的方法
电影《三峡好人》在2006年12月全国公映,其思想内涵丰厚,可说是一部隐语性很强的电影;艺术特色突出,在当前的电影文化语境里成为杰出的另类;但它又受制于当前的接受语境,其不
<正>门窗行业的发展经历了一场由生到死的全过程,由被动到主动的过程,产生了由单纯向多元化的发展,地区间形成了产业集群基地,产业集群的门窗优势就是带动门窗行业的区域经济
<正>著名的生物医学工程专家Rune Aaslid对国际超声医学领域的重要贡献在于发明了低频率高穿透性的经颅多普勒(transcranial Dopler,TCD)超声血流检查与监测技术,解决