面向非结构化中文文本的篇章级事件抽取研究

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:ltycongc2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今,随着信息传播技术的高速发展,互联网已然成为大多数人工作学习生活中不可或缺的部分。网络中流通着的海量非结构化的电子文本,在给用户都带来极其方便的信息获取途径的同时,也带来信息冗余繁多的困扰。面对爆炸式增长的电子化文本数据,如何帮助用户快速地从非结构化文本中获取其感兴趣的信息和知识以减轻时间成本,成为了亟待解决的问题,信息抽取的提出主要为了解决该问题。作为自然语言处理技术中的关键任务和重要组成部分,信息抽取主要研究如何快速地从非结构化文本中获取用户关心的信息和知识,并以精简、结构化的形式反馈给用户。信息抽取按照抽取对象主要可分为实体抽取、关系抽取和事件抽取。本文主要研究内容是面向非结构化文本的事件抽取,主要应用于事件结构化信息的自动获取、事件知识图谱的构建以及辅助其它自然语言理解任务。目前事件抽取研究框架按照文本抽取粒度可分为句子级事件抽取和篇章级事件抽取。句子级事件抽取旨在识别句中是否包含表示特定类型事件发生的事件触发词,进而判断句中实体在该事件中所扮演的预定义事件角色,从而得到句子级的事件结构化信息。篇章级事件抽取以文档文本中描述的核心事件为中心,将简洁、完整、结构化的篇章级事件信息呈现给用户。相比于句子级事件抽取,篇章级事件抽取在现实生活中更具有普适性,允许用户快速获取文档中所包含的结构化事件信息。本文针对篇章级事件抽取展开研究,主要研究内容和方法如下:1.提出基于联合标注和全局推理的篇章级事件抽取模型。现实情况中,一篇文档中重要的事件通常会在文本中被多次提及,为了获取完整的结构化事件信息,需要对文档中共指事件中的信息进行融合。针对这一问题,本文提出一种基于联合标注和全局推理的抽取方法。具体地,首先利用基于自我注意力机制的序列标注模型进行事件和实体联合抽取得到句中实体和事件类别信息,然后采用多层感知器进行事件元素的识别以得到句子级事件结构化信息,最后利用整数线性规划进行全局优化得到篇章级事件抽取结果。公开数据集上的实验结果验证了该篇章级事件抽取方法的有效性。2.提出一个基于自动生成标注语料的篇章级中文金融事件抽取系统。当前事件抽取的研究技术手段都将事件抽取任务看作为有监督的分类任务。有监督的方法在公开的数据集上能取得较好的效果,但该类方法严重依赖于大量人工标注的数据。在一些特定领域,如金融、医疗和法律,由于高昂的人工标注代价,并没有足够的数据作为统计学习模型的训练支撑。为了解决上述问题,提出一个基于自动标注语料的篇章级中文金融领域事件抽取系统。该系统利用远距离监督的方式自动生成大量的标注语料以进行抽取模型的训练。该系统的事件抽取分为两个阶段:首先利用序列标注的方法得到句子级事件信息,然后基于主事件发现和元素补齐的方法得到篇章级事件信息。本文在三种金融公告类型(股权冻结、股权质押、和股权增减持)进行了数据构建和评价实验,实验结果验证了该金融领域事件抽取系统的有效性。系统的实际应用价值在于可以帮助金融领域相关用户快速地从公告文本中获取有价值的事件信息。
其他文献
本文简要介绍了恒温换热器的工作原理,采用传热有效度—传热单元数(ε—NTU)的方法建立了恒温汽—水换热器的数学模型,并利用 MATLAB 软件进行了仿真研究,得到了换热器的变化
目的了解豫北地区近十年肾穿病理资料人口特征及病理类型分布特征,为肾脏疾病临床诊断、治疗及预后评估提供参考。方法收集豫北地区新乡医学院第一附属医院肾脏病理科2008年1月至2017年12月十年间的肾活检病理资料,统计分析其年龄、性别及病理类型分布特征。结果共纳入2008年1月至2017年12月的新乡医学院第一附属医院肾脏病理科肾活检病例3586例,男性1861例,女性1725例,男女之比1.1:1,
轴承磨损寿命与系统动力学特性密切相关,为了准确预测行星齿轮传动系统的轴承磨损寿命,提出了基于动力学模型的行星齿轮传动系统的轴承磨损寿命预测。首先运用集中参数理论,
今天,科学技术转化为生产力的重要意义已是人所共识.科学技术转化为社会生产力是一个大的系统工程,其中不可缺少的便是它必须有一个强有力的驱动力系统来维持它的正常运转和
采用风洞试验测试-种外形为凹弧面的低风压导线与相同直径钢芯铝绞线等的风阻力系数,比较在不 同风速下风阻力系数的变化,检验所设计的低风压架空导线在不同风速条件下,风阻