论文部分内容阅读
伴随计算机技术的发展及其应用日新月异而生的是,人们每天需要面对海量消息,而人们更关注的是从海量消息中提取有用的知识,即信息。而命名实体识别是计算机对消息处理从句法结构分析迈向语义分析的必经路径。命名实体识别精确度与召回率的提高可以为自动翻译、问答系统等后续的信息应用技术提供基础支撑。人们对信息处理的高要求,必然需要作为其基础的命名实体识别结果的高质量。以中文命名实体的特点为依据,其识别技术方法主要分为三类:基于规则的方法、统计方法和规则与统计相结合的方法,而近年来比较常用的思路是将机器学习和人工知识结合起来进行命名实体识别。本文主要研究命名实体识别中的三大类:中文地名、人名、机构名识别的方法。针对统计和规则两种传统方法各自的优点和不足,借鉴目前流行的将机器学习和人工知识结合起来的思路,提出一种运用基于转换的错误驱动学习方法(TBL)和知网相结合的中文命名实体自动识别方法。该方法基本思想是:利用标注语料库,根据在命名实体识别中的作用对其上下文环境进行角色标注,提取标注后的实例模板,分为高频实例模板和中频实例模板,并采用基于转换的错误驱动学习方法和知网对中频实例模板进行可用规则提取。最后结合规则集和高频模板与知网对待识别文本进行标注。本文将知网作为语义知识库,其作用体现在三个方面:一是利用知网义原的位置关系,提高模板关键词抽象程度以便减少模板数量;二是利用知网的相似度计算弥补语料不足带来的数据稀疏问题,在不扩大语料库容量的前提下,尽量发掘相关词语的语义特征;三是利用知网中存在的地名、人名、教派名等专有义原,建立对命名实体识别具有明显指称作用的词语的语义词汇库,并结合知网概念相关场和角色框架中的动态角色所蕴含的语义约束和搭配习惯与句法结构分析中的骨干成分信息来判断命名实体类型。基于角色标注的实例模板和转换规则相结合可以提高中文命名实体边界检测的精确度,而知网可以提高类别判断的准确率。在已经标注过的《人民日报》语料上进行了封闭和开放两种测试。地名、人名、机构名识别的准确率和召回率了都取得较好的结果。实验表明在角色标注方法基础上集成TBL与知网,将统计信息与语义信息相结合的思路具有可行性,该命名实体识别模型具有一定的实用性。