论文部分内容阅读
命名实体识别是指识别文本中的命名性指称和专有名词。中文命名实体识别是中文信息处理的基础,目前主要面临两方面问题。一方面,传统方法往往依赖外部知识和人工筛选特征,需要较高的人力成本和时间成本;另一方面,识别特定领域命名实体的需求不断增加,对识别方法提出了新的要求。循环神经网络适用于处理序列数据,是自然语言处理领域的热门方法。本文使用循环神经网络处理中文字符级别的命名实体识别任务,分别展开以下工作:(一)传统的命名实体识别方法欠缺学习长距离依赖的能力,并且在提取和处理特征时,需要结合外部知识和大量人工参与,针对这一局限性,本文设计了基于循环神经网络的命名实体识别方法,该方法使用一个双向LSTM对输入语句进行处理,并为每个字分配合适的标签。由于命名实体标签之间存在较强的依赖关系,本文在神经网络的输出层链接了一个CRF层,使用该方法学习标签之间的依赖关系,在句子级别给出全局最优的标签序列。在人民日报语料库上的实验结果表明,本文设计的基于Bi-LSTM-CRF的方法可以有效的识别中文命名实体,且不需要特征工程,是一种端到端的中文命名实体识别方法。(二)随着自然语言处理技术在各领域的应用,命名实体识别的对象已经不再限于人名、地名、机构名等传统实体类型,识别特定领域的新类型命名实体的需求日益增加。识别特定领域实体时经常面临只有少量甚至没有标注语料可用的问题,本文根据情报分析领域对会议名称识别的需求,构建了用于识别会议名称的语料库,使用双向GRU与CRF结合的方法对会议名称进行识别,该方法不需要增加新的领域知识,可以避免针对特定领域设计特征的繁琐工作。为了进一步提升识别效果,本文设计了一个基于循环神经网络的语言模型,使用已经存在的大规模语料库(下文称辅助语料库)对其进行训练,再使用训练好的语言模型产生字向量,以丰富原有字向量的特征,从而提高识别模型的效果。实验结果表明,这种方法可以有效提高识别模型的效果。