基于循环神经网络的中文命名实体识别研究

来源 :北京工业大学 | 被引量 : 6次 | 上传用户:yeti
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别是指识别文本中的命名性指称和专有名词。中文命名实体识别是中文信息处理的基础,目前主要面临两方面问题。一方面,传统方法往往依赖外部知识和人工筛选特征,需要较高的人力成本和时间成本;另一方面,识别特定领域命名实体的需求不断增加,对识别方法提出了新的要求。循环神经网络适用于处理序列数据,是自然语言处理领域的热门方法。本文使用循环神经网络处理中文字符级别的命名实体识别任务,分别展开以下工作:(一)传统的命名实体识别方法欠缺学习长距离依赖的能力,并且在提取和处理特征时,需要结合外部知识和大量人工参与,针对这一局限性,本文设计了基于循环神经网络的命名实体识别方法,该方法使用一个双向LSTM对输入语句进行处理,并为每个字分配合适的标签。由于命名实体标签之间存在较强的依赖关系,本文在神经网络的输出层链接了一个CRF层,使用该方法学习标签之间的依赖关系,在句子级别给出全局最优的标签序列。在人民日报语料库上的实验结果表明,本文设计的基于Bi-LSTM-CRF的方法可以有效的识别中文命名实体,且不需要特征工程,是一种端到端的中文命名实体识别方法。(二)随着自然语言处理技术在各领域的应用,命名实体识别的对象已经不再限于人名、地名、机构名等传统实体类型,识别特定领域的新类型命名实体的需求日益增加。识别特定领域实体时经常面临只有少量甚至没有标注语料可用的问题,本文根据情报分析领域对会议名称识别的需求,构建了用于识别会议名称的语料库,使用双向GRU与CRF结合的方法对会议名称进行识别,该方法不需要增加新的领域知识,可以避免针对特定领域设计特征的繁琐工作。为了进一步提升识别效果,本文设计了一个基于循环神经网络的语言模型,使用已经存在的大规模语料库(下文称辅助语料库)对其进行训练,再使用训练好的语言模型产生字向量,以丰富原有字向量的特征,从而提高识别模型的效果。实验结果表明,这种方法可以有效提高识别模型的效果。
其他文献
隐喻根植于文化系统中,与语言学、认知学等多学科领域相关。人们对花卉的体验是花卉词隐喻语义产生的基础,隐喻帮助人类认识世界,在人类历史发展进程中有深远意义。不同语言
随着信息技术的不断发展,全球化趋势的加强,企业面临更加复杂的竞争环境。以ERP软件为工具的企业管理方法越来越成熟,如何有效地利用ERP软件,促进企业业务流程的优化和管理水
在我国建筑工程不断发展和进步当下,促使着我国建筑技术的不断发展和进度。在开展建筑工程建设过程中,经济效益作为建筑单位是最为注重的内容之一,必须要在建筑工程预算的基
声乐艺术表演的心理学是一个内容十分广泛、水平十分高端、层面十分深刻的新兴学科,它以声乐表演主体为研究对象,研究内容主要涉及声乐艺术表演的心理特征、心理过程、心理素
本文研究由两个原始设备制造企业(品牌企业)、一个代工企业和一个供应商组成的多层供应链的外包模式选择问题。应用主从博弈和纳什博弈理论,当一个原始设备制造企业的外包模
汉语作为SVO语言,一般来说遵循施事、动作、受事的排列顺序。介词是汉语表达语法意义的重要手段,介词的使用和移位可以引发语序的变化。介词的使用可以提前受事,介词的移位本
<正>考试是对教学质量评估采取的最主要手段.试卷本身的分析能更好地为提高教学质量、改善教学方式及执行教学大纲等提供依据,以往的很多试卷分析工作主要侧重于分数段的人数
在任何语言学研究领域中,语言变化的研究都至关重要。形态变化是英语语言变化全局下不可或缺的一部分。形态变化过程并非由各个孤立阶段拼合而成,而是一个渐进的过程。形态变
“对外汉语教育学科研究的核心课题是对外汉语教学”,学习任何一种语言,初级阶段都是形成和培养该语种基本言语能力的关键阶段,所以,初级阶段的对外汉语教学应受到特别关注。
语言承载着丰富的信息内涵和文化负荷,成语则是一个民族语言的结晶。成语能够形象、生动、精炼地传达人的思想以及深刻的道理,在人们的日常生活中发挥着其他语言单位所无法取