论文部分内容阅读
现有识别中文命名实体方法多依赖其自身结构特点,并且嵌套命名实体的识别还没有引起足够的重视,另外,广泛类型实体识别几乎没有研究,如产品品牌、新闻媒体等。基于此,本文提出了融合干扰词上下文特征的中文命名实体识别算法。该算法用统一模型识别人名、地名、机构名以及广泛类型的命名实体;同时,可以进行不包含自身结构特点的实体以及嵌套命名实体的识别。本文方法既不依赖命名实体边界词知识库和实体知识库,也不依赖命名实体的内部特征,而是通过训练得到命名实体的上下文特征,然后利用这些特征对命名实体进行识别。在特征选取上,将上下文特征分为命名实体独有特征和干扰词与命名实体相交特征。每一个特征赋予一个错误率权重w,选择不同错误率w范围内的特征,采用上下文特征匹配算法对各类命名实体进行识别。算法还通过建立干扰词表和扩展操作,进一步提高命名实体的准确率与召回率。为验证本文提出的命名实体识别方法的有效性,论文选择了多组测试数据进行测评。首先在人民日报语料上对人名、地名、机构名的识别进行6折交叉验证实验。接着分析1月人民日报语料各类命名实体的组成结构,并与依赖边界特征词、命名实体内部特征和命名实体知识库的方法进行对比。再接下来,本文又对广泛类型的命名实体进行识别,其中品牌、新闻媒体的识别取得了较好的结果。为了全面验证本文方法的有效性,又在搜狗测试集上对命名实体进行识别。最后,我们在人民日报语料与搜狗语料上,用本文的方法和最好的汉语词法分析器ICTCLAS对命名实体进行识别,本文方法在人民日报语料上获得较高的平均识别效果。