开放域命名实体识别及其层次化类别获取

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:hyxh4388488
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别的目标是识别文本中事物的名称并分类。传统命名实体识别任务主要识别人名、地名和机构名等。但由于传统命名实体的类别有限,不能完全满足自然语言处理领域其他任务的需求。因此本文重点研究开放域命名实体的识别和层次化类别获取,旨在为信息抽取、信息检索、开放域问答、机器翻译等自然语言处理任务提供支持。开放域命名实体相对传统命名实体有两个主要特点:类别更多且不固定;类别更细且有层次。这导致开放域命名实体的识别面临无法标注训练语料、同一个命名实体属于多个不同粒度的类别等挑战,无法应用传统的序列标注的方法来解决。本文将开放域命名实体识别任务分为两个方面:边界识别和类别获取。边界识别面临的主要问题是训练语料的构建以及有效利用。类别获取面临的主要问题是类别体系不可预先确定以及类别的层次化。本文的研究工作旨在解决上述两个问题,主要研究内容包括以下四个方面:第一部分为基于英汉双语平行语料自动构建汉语命名实体识别语料。命名实体识别训练语料不足会导致的领域过拟合问题,而人工标注的成本太高,本文使用双语平行语料将英语命名实体自动识别的标记映射到汉语端,从而实现汉语命名实体语料的自动标注。然后进一步使用多种策略综合筛选高质量的实例作为训练语料。实验证明这种方法可以自动构建大量的汉语命名实体识别训练语料,在该语料上训练的模型与人工标注语料上训练的模型性能接近,并且通过和人工标注的语料融合可以提高命名实体识别的准确率和召回率。此外,我们还详细分析了平行语料规模和来源对命名实体识别效果的影响。第二部分为基于自学习的开放域命名实体边界识别。汉语开放域命名实体识别尚缺乏训练语料,而命名实体开放的类型导致人工标注语料的代价太大。本文首先基于双语平行语料和英语句法分析器自动标注了一个汉语专有名词语料,另外基于汉语依存树库生成了一个名词复合短语语料,然后使用自学习的方法将这两部分语料融合形成命名实体边界识别语料,同时训练边界识别模型。此外,本文还针对开放域命名实体的特点,提出了动词依存关系、命名实体构成模式等更加丰富的特征。实验结果表明自学习的方法可以提高边界识别的准确率和召回率,其中使用的特征对于提高边界识别效果皆有帮助。第三部分为基于多信息源的开放域命名实体类别获取。命名实体的上位词通常表明了其类别信息。本文在Web搜索结果、在线百科和命名实体字面等多个信息源中挖掘命名实体的上位词候选,然后设计了一组丰富的特征并在一个自动构建的语料上训练模型对候选进行排序,从而获得了命名实体的类别。实验结果表明多个信息来源可以相互补充和验证,有利于命名实体类别的挖掘和排序。此外,本文还对上位词排序的特征进行了评测。第四部分为基于词汇分布表示的开放域命名实体类别层次化。一个命名实体可能属于多个不同粒度的类别,这些类别之间通常存在上下位关系。为此,在获取命名实体类别的基础上,本文进一步挖掘类别之间的上下位层次化关系。本文利用词汇的分布表示,学习从下位词到上位词的分段映射矩阵,来判断给定的词对是否具有上下位关系。实验证明本文采用的基于词汇分布表示的方法对于开放域命名实体类别的层次化是行之有效的。综上所述,本文针对开放域命名实体识别面临的挑战以及汉语的特点,深入研究了命名实体语料自动构建、边界识别、类别获取和类别层次化构建问题,取得了一些有意义的研究成果。我们期待这些研究成果能够进一步推动自然语言处理领域上层应用如信息抽取、问答、机器翻译等的发展。
其他文献
随着世界经济一体化的进程不断加快,小微企业作为市场经济体制中的一种特殊形式,其在市场经济中的作用越来越大,一是提高了国民生产总值,二是缓解了就业压力,为社会主义现代
物联网(Internet of Things, IoT)是一个基于感知技术、以感知层数据为运行基础、融合了各类应用的服务型网络系统。感知层处于物联网体系架构的最底层,是物联网和物理世界对
目前,信息的爆炸式增长推动着全球数据量的迅猛增加,从而使得数据的存储日益成为专业问题。这给云存储的发展带来了不错的机遇。然而云存储本身的安全问题成为其进一步推广的阻
随着传感器技术的发展,红外成像传感器、可见光成像传感器在军事和安全监控等领域的应用得到了不断的推广。但这两类传感器的成像特点及局限性,使它们在某些成像环境下,利用
以乌库尔其-扎吉斯坦、扎吉斯坦-朗卡2个三级水文地质单元的中下侏罗统水西沟群地下水铀数据为研究对象,分析其数据分布形式,与整个盆地南缘地下水铀背景值进行对比,利用数理
七、液压系统的设计在了解了液压传动系统中的各种常用元件和辅件的结构、性能和它们的用途后,将它们适当地有机组合在一起,便能构成各种各样的液压系统来实现机器所要求的
一、江苏省通信设备、计算机及其它电子设备制造业发展概况通信设备、计算机及其他电子设备制造业是制造业中比较重大的行业,在国民经济中具有重要的地位。江苏的通信设备、
本文在对中国外向FDI的发展现状进行分析的基础上,指出中国外向FDI发展中存在着投资规模、投资结构、经营管理、制度法规和人才等方面的问题,并从投资主体、产业选择、区位选
我国油脂设备存在的机械问题有:主要转动件、特殊转动轮和齿条、机械密封、专用链条等质量差;在自动化方面,设计人员对工艺和设备性能了解不够,主要的控制元件和仪表如长期运行时
目的探究超早期小骨窗微创脑出血清除术治疗高血压脑出血的疗效及预后分析。方法选取60例高血压脑出血患者进行研究。随机分为观察组和对照组。观察组30例,采用超早期小骨窗