自然语言中的实体分类方法研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:wjlayt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言中的实体是指语句中出现的客观世界中存在的,并可相互区别的对象或概念。推断实体所属的语义类型是自然语言处理中的一项有着重要意义的任务,也是一项很有挑战性的任务。同一个实体出现在不用的句子语境中可能有不同的含义,属于不同的语义类型。比如,“苹果”这个实体在不同的语境中就属于不同的语义类型,可能是一种“水果”、“智能手机”、又或者是一部“电影”;三种类型没有任何语义关联,由此可见实体分类是一项困难的任务。在如今的互联网时代,每天都有海量的数据产生,随着数据的增长及数据存储能力的增强,我们可获得各种格式不同的数据源,其中就包括海量的文本数据。如何对这些数据进行分析挖掘并有效地抽取信息,如何理解和利用这些数据,是摆在科研和工业界的一个有意义的问题。  实体分类是理解语言的重要一步,为了理解和利用海量的语言数据,国内外科研人员已经对此有了一些研究。但是以往的大多数工作只是把实体分到粗粒度的类型体系中,其中的类型相对宽泛,不够具体而且数目太少;这使得粗粒度的类型对于其他自然语言处理任务是远远不够的。实体分类结果的好坏,对问答系统等自然语言处理任务的结果有很大影响。  因为粗粒度的分类体系对于其他自然语言处理任务是远远不够的,所以本文主要针对细粒度体系下的实体分类进行研究。在细粒度分类体系下,如果直接应用以往的实体分类方法,分类会性能急剧下降。本文首先介绍了一个细粒度的分类体系,其中包括几百个互不重叠的类;然后介绍了一种混合神经网络分类模型。模型包含四个部分,分别是实体部分、上下文部分、关系部分、已知类型部分,不同部分利用不同的神经网络从输入中抽取不同特征;然后这些特征被拼接到一起,然后经过逻辑回归层去做分类。通过大量实验证明,本文介绍的模型取得了不错的效果。实验是在两个数据集上进行的,包括FIGER数据集、维基百科数据集。在FIGER数据集上,与以往分类方法相比,本文介绍的模型取得了最好效果。在维基百科数据集上,我们进行了三组实验,分别测试不同模块的作用;实验结果表明关系部分和已知类型部分对于分类效果提升有很大帮助。  本文的主要贡献是,介绍了一种无监督的方法来利用网页中的超链接信息识别上下文实体;扩展粗粒度分类体系到几百类的细粒度体系;利用实体与实体直接的关系提升分类效果;利用知识库中已知类型,提升模型对不常见实体的分类效果;并通过大量实验验证模型效果,实验结果表明实体关系和知识库中已知类型对于提升分类效果有很大帮助。
其他文献
学位
智能制造业的快速发展,对节点间通信的实时性、可靠性以及通信带宽提出了更高的要求。作为智能制造业最基础的核心技术之一,工业现场通信技术始终处于高速发展中,近些年涌现出一
随着移动设备和无线局域网的普及,定位服务越来越成为人们生活中必不可少的功能。相比于目前已经很成熟的户外GPS地图定位,室内位置信息的获取,特别是在场地复杂的公共场所比
时间序列是一种广泛存在的数据,客观记录了所观测的系统在各个时刻点的具体值,所以可以通过研究时间序列数据来辨识和重构所观测系统的动力学行为。早期的研究方法是基于统计
随着我国证券市场的不断发展和完善,股票市场作为我国经济“晴雨表”的功能也越来越突出,无论是个人投资者还是国家都十分关注股票市场的走势。若能较为准确的预测股票市场的涨跌趋势,不仅可以为广大投资者提供投资决策的依据,也能够为国家制定相关经济政策提供参考。股票市场具有非线性、高噪声、数据量大等特征,相关的股票分析方法,如基本面分析法、技术面分析法、时间序列分析法等,各有特色,但难以适应日趋复杂的股市。研
随着互联网的迅猛发展以及电子商务的快速流行,海量信息充斥在人们的生活中。信息超载问题也越来越严重。为了解决该问题,推荐系统就此诞生。它通过分析用户的历史行为记录,得出
MQX是一款主要面向工业控制、汽车电子及消费电子等领域实时多任务应用的嵌入式实时操作系统。2009年,飞思卡尔公司半导体公司开始免费开放MQX3.0.1版源代码,同年,苏州大学飞思
随着Web技术的不断发展进步,J2EE已成为Web开发的应用技术的最流行的架构规范。这个平台已经拥有很好的技术支持和服务,它的多层架构受到大型Web开发者的青睐,是解决企业应用
随着人们出行需求的大幅增加和各类交通工具数量的迅速增长,对轨迹数据进行分析和挖掘开始受到广泛的关注和重视。得益于智能交通系统在各大城市的普及应用,大量的车辆轨迹数
随着大数据时代的到来,数据开始呈爆炸式的增长,互联网用户越来越被淹没在数据的海洋之中。因此,如何帮助用户从海量的信息中找到真正感兴趣的资源成为一个亟待解决的问题。商品