基于自主推理的中文命名实体识别方法研究

被引量 : 0次 | 上传用户:cdauto
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随计算机技术的发展及其应用日新月异而生的是,人们每天需要面对海量消息,而人们更关注的是从海量消息中提取有用的知识,即信息。而命名实体识别是计算机对消息处理从句法结构分析迈向语义分析的必经路径。命名实体识别精确度与召回率的提高可以为自动翻译、问答系统等后续的信息应用技术提供基础支撑。人们对信息处理的高要求,必然需要作为其基础的命名实体识别结果的高质量。以中文命名实体的特点为依据,其识别技术方法主要分为三类:基于规则的方法、统计方法和规则与统计相结合的方法,而近年来比较常用的思路是将机器学习和人工知识结合起来进行命名实体识别。本文主要研究命名实体识别中的三大类:中文地名、人名、机构名识别的方法。针对统计和规则两种传统方法各自的优点和不足,借鉴目前流行的将机器学习和人工知识结合起来的思路,提出一种运用基于转换的错误驱动学习方法(TBL)和知网相结合的中文命名实体自动识别方法。该方法基本思想是:利用标注语料库,根据在命名实体识别中的作用对其上下文环境进行角色标注,提取标注后的实例模板,分为高频实例模板和中频实例模板,并采用基于转换的错误驱动学习方法和知网对中频实例模板进行可用规则提取。最后结合规则集和高频模板与知网对待识别文本进行标注。本文将知网作为语义知识库,其作用体现在三个方面:一是利用知网义原的位置关系,提高模板关键词抽象程度以便减少模板数量;二是利用知网的相似度计算弥补语料不足带来的数据稀疏问题,在不扩大语料库容量的前提下,尽量发掘相关词语的语义特征;三是利用知网中存在的地名、人名、教派名等专有义原,建立对命名实体识别具有明显指称作用的词语的语义词汇库,并结合知网概念相关场和角色框架中的动态角色所蕴含的语义约束和搭配习惯与句法结构分析中的骨干成分信息来判断命名实体类型。基于角色标注的实例模板和转换规则相结合可以提高中文命名实体边界检测的精确度,而知网可以提高类别判断的准确率。在已经标注过的《人民日报》语料上进行了封闭和开放两种测试。地名、人名、机构名识别的准确率和召回率了都取得较好的结果。实验表明在角色标注方法基础上集成TBL与知网,将统计信息与语义信息相结合的思路具有可行性,该命名实体识别模型具有一定的实用性。
其他文献
文章结合实例阐述了汉语修辞格"顶真"的特点,顶真的类别和功用,既重知识性,更具趣味性,意在使人对顶真这种修辞格有更好更全面的了解,引发人们的兴趣,从而自觉地用好"顶真"修
结合塔里木盆地北部碳酸盐岩储层地质特征,开展了储层预测方法技术研究,包括储层精细成像处理技术、三维相干体处理技术、地震特征参数提取及分析技术、波阻抗反演技术、三维
档案信息资源优化整合,是网络环境下的档案信息资源开发利用的前提基础。基于这一认识,本文分析研究了网络环境下档案信息资源优化整合过程中存在的问题、应遵循的原则以及组
<正>日前,Teradata天睿公司正式推出高性能数据仓库专用平台——Teradata数据仓库平台2700。作为Teradata统一数据架构(UDA)的重要组件,Teradata数据仓库平台帮助企业快速应
在分析镇山生态博物馆旅游发展中存在的问题的基础上,以保护开发为前提,尝试对镇山民族文化生态旅游区的结构与文化生态旅游项目进行规划与设计。
加德纳的多元智能理论在世界范围内的教育教学改革中产生了深远的影响,已经成为西方许多国家九十年代以来教育教学改革的重要指导思想之一。基于多元智能理论的课程和教学改革
敦煌壁画内容庞大,形式结构丰富多样,但无论敦煌壁画如何复杂,古代画师都是依据一定的形式法则来绘制的,敦煌图案在莫高窟艺术中占有很重要的地位,是敦煌艺术不可分割的一部
介绍了硒元素的重要作用,阐述了硒元素在植物体内的生理作用及其生理机制,并对其未来的研究方向进行了展望。
“通知移除规则”与“红旗标准”均起源与美国《千禧年数字版权法》。正是由于上述规则与著作权的特性相契合,所以在其网络著作权领域的适用非常经济和高效。也许正是基于此原
随着全球性城市化、工业化进程的加快,城市热岛现象已极大地影响着城市的生态环境和城市居民的日常生活。城市热岛问题已引起世界各国政府和学术界的高度重视和广泛关注。对城