论文部分内容阅读
中文命名实体识别(Named Entity Recognition,简称NER),是指识别中文文本中具有特定意义实体的技术。中文命名实体识别是信息抽取、问答系统、句法分析、机器翻译等应用领域的重要任务。嵌套命名实体(Nested Named Entity,简称NNE),是指一种含有复杂结构的命名实体,它们通常包含一个或者多个基本命名实体。嵌套命名实体在命名实体中占有较大的比重,因此,本文对中文嵌套命名实体的识别进行了比较深入的研究。本文首先对嵌套命名实体识别各种研究方法进行了归纳与分析,然后针对现有的序列化标注方法存在的不足,提出一种基于联合模型的方法解决中文嵌套命名实体识别问题。本文的主要工作和贡献如下:1、首先,我们用序列化标注的方法对嵌套命名实体进行识别。本文分别采用基于层次标号标注的序列化标注方法和基于双层模型的序列化标注方法解决嵌套命名实体识别问题。通过采用经典的条件随机场模型,本文分别实现了两个中文嵌套命名实体识别的baseline系统。2、其次,我们提出和设计了一种联合模型的方法对嵌套命名实体进行识别。我们将命名实体识别任务中的分词问题、命名实体的边界确定问题、命名实体的类别确定问题看作一个联合问题同时进行处理。并且,我们将传统序列化标注方法中常用的“BIE”标注方法应用到联合处理过程中,用以识别中文嵌套命名实体。利用这种标注方法,我们不仅可以识别嵌套命名实体的边界和类型,而且还可以识别嵌套命名实体中包含的基本命名实体和词的边界、类型。本文为联合模型设计了丰富的特征模板,并且在这些特征模板的基础上,分别用平均感知器算法和k-best MIRA算法作为联合模型的训练算法,用通过"max-violation update"优化方法优化的Beam Search算法作为解码算法,来训练联合模型。在北京大学语料库上进行的十折交叉验证实验的结果显示,基于联合模型的中文嵌套命名实体识别的F1值为80.85%,明显优于两个基于传统的序列化标注方法的baseline系统的性能,实验结果验证了该方法的有效性。