论文部分内容阅读
自然语言中的实体是指语句中出现的客观世界中存在的,并可相互区别的对象或概念。推断实体所属的语义类型是自然语言处理中的一项有着重要意义的任务,也是一项很有挑战性的任务。同一个实体出现在不用的句子语境中可能有不同的含义,属于不同的语义类型。比如,“苹果”这个实体在不同的语境中就属于不同的语义类型,可能是一种“水果”、“智能手机”、又或者是一部“电影”;三种类型没有任何语义关联,由此可见实体分类是一项困难的任务。在如今的互联网时代,每天都有海量的数据产生,随着数据的增长及数据存储能力的增强,我们可获得各种格式不同的数据源,其中就包括海量的文本数据。如何对这些数据进行分析挖掘并有效地抽取信息,如何理解和利用这些数据,是摆在科研和工业界的一个有意义的问题。 实体分类是理解语言的重要一步,为了理解和利用海量的语言数据,国内外科研人员已经对此有了一些研究。但是以往的大多数工作只是把实体分到粗粒度的类型体系中,其中的类型相对宽泛,不够具体而且数目太少;这使得粗粒度的类型对于其他自然语言处理任务是远远不够的。实体分类结果的好坏,对问答系统等自然语言处理任务的结果有很大影响。 因为粗粒度的分类体系对于其他自然语言处理任务是远远不够的,所以本文主要针对细粒度体系下的实体分类进行研究。在细粒度分类体系下,如果直接应用以往的实体分类方法,分类会性能急剧下降。本文首先介绍了一个细粒度的分类体系,其中包括几百个互不重叠的类;然后介绍了一种混合神经网络分类模型。模型包含四个部分,分别是实体部分、上下文部分、关系部分、已知类型部分,不同部分利用不同的神经网络从输入中抽取不同特征;然后这些特征被拼接到一起,然后经过逻辑回归层去做分类。通过大量实验证明,本文介绍的模型取得了不错的效果。实验是在两个数据集上进行的,包括FIGER数据集、维基百科数据集。在FIGER数据集上,与以往分类方法相比,本文介绍的模型取得了最好效果。在维基百科数据集上,我们进行了三组实验,分别测试不同模块的作用;实验结果表明关系部分和已知类型部分对于分类效果提升有很大帮助。 本文的主要贡献是,介绍了一种无监督的方法来利用网页中的超链接信息识别上下文实体;扩展粗粒度分类体系到几百类的细粒度体系;利用实体与实体直接的关系提升分类效果;利用知识库中已知类型,提升模型对不常见实体的分类效果;并通过大量实验验证模型效果,实验结果表明实体关系和知识库中已知类型对于提升分类效果有很大帮助。