论文部分内容阅读
如今,随着信息传播技术的高速发展,互联网已然成为大多数人工作学习生活中不可或缺的部分。网络中流通着的海量非结构化的电子文本,在给用户都带来极其方便的信息获取途径的同时,也带来信息冗余繁多的困扰。面对爆炸式增长的电子化文本数据,如何帮助用户快速地从非结构化文本中获取其感兴趣的信息和知识以减轻时间成本,成为了亟待解决的问题,信息抽取的提出主要为了解决该问题。作为自然语言处理技术中的关键任务和重要组成部分,信息抽取主要研究如何快速地从非结构化文本中获取用户关心的信息和知识,并以精简、结构化的形式反馈给用户。信息抽取按照抽取对象主要可分为实体抽取、关系抽取和事件抽取。本文主要研究内容是面向非结构化文本的事件抽取,主要应用于事件结构化信息的自动获取、事件知识图谱的构建以及辅助其它自然语言理解任务。目前事件抽取研究框架按照文本抽取粒度可分为句子级事件抽取和篇章级事件抽取。句子级事件抽取旨在识别句中是否包含表示特定类型事件发生的事件触发词,进而判断句中实体在该事件中所扮演的预定义事件角色,从而得到句子级的事件结构化信息。篇章级事件抽取以文档文本中描述的核心事件为中心,将简洁、完整、结构化的篇章级事件信息呈现给用户。相比于句子级事件抽取,篇章级事件抽取在现实生活中更具有普适性,允许用户快速获取文档中所包含的结构化事件信息。本文针对篇章级事件抽取展开研究,主要研究内容和方法如下:1.提出基于联合标注和全局推理的篇章级事件抽取模型。现实情况中,一篇文档中重要的事件通常会在文本中被多次提及,为了获取完整的结构化事件信息,需要对文档中共指事件中的信息进行融合。针对这一问题,本文提出一种基于联合标注和全局推理的抽取方法。具体地,首先利用基于自我注意力机制的序列标注模型进行事件和实体联合抽取得到句中实体和事件类别信息,然后采用多层感知器进行事件元素的识别以得到句子级事件结构化信息,最后利用整数线性规划进行全局优化得到篇章级事件抽取结果。公开数据集上的实验结果验证了该篇章级事件抽取方法的有效性。2.提出一个基于自动生成标注语料的篇章级中文金融事件抽取系统。当前事件抽取的研究技术手段都将事件抽取任务看作为有监督的分类任务。有监督的方法在公开的数据集上能取得较好的效果,但该类方法严重依赖于大量人工标注的数据。在一些特定领域,如金融、医疗和法律,由于高昂的人工标注代价,并没有足够的数据作为统计学习模型的训练支撑。为了解决上述问题,提出一个基于自动标注语料的篇章级中文金融领域事件抽取系统。该系统利用远距离监督的方式自动生成大量的标注语料以进行抽取模型的训练。该系统的事件抽取分为两个阶段:首先利用序列标注的方法得到句子级事件信息,然后基于主事件发现和元素补齐的方法得到篇章级事件信息。本文在三种金融公告类型(股权冻结、股权质押、和股权增减持)进行了数据构建和评价实验,实验结果验证了该金融领域事件抽取系统的有效性。系统的实际应用价值在于可以帮助金融领域相关用户快速地从公告文本中获取有价值的事件信息。