面向企业图谱构建的关系抽取技术研究

来源 :东南大学 | 被引量 : 3次 | 上传用户:jacklee12345678
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实体关系抽取是自然语言处理领域中的重要任务之一,同时也是知识图谱构建过程中的关键一步。实体关系抽取的目的是从自然语言文本中提取出实体之间的关联关系,从而把实体联系起来,形成以三元组为知识单元的网状知识库,成为知识图谱的知识来源。在实体关系抽取领域,已经有很多的方法提出来,但是仍然存在各种问题。本文通过深入研究各种关系抽取方法,针对企业图谱构建这一实际目标,提出了两种基于深度学习的关系抽取模型。由于目前的研究主要是基于英文数据集的,而且中文标准数据集缺乏。本文通过网络爬虫的方式,并利用远程监督的方法构建了一个用于企业关系抽取的数据集。数据的主要来源是上市公司公告和企业新闻。为了使实验更具有说服力,本文在最后的实验阶段,还使用了一个标准的英文关系抽取数据集。传统的关系抽取方法通常需要制定大量的规则,或者构造复杂的特征工程,随着深度学习的发展,基于深度学习的关系抽取算法渐渐被提出来了。本文在目前研究的基础上,提出了两种改进的基于深度学习的关系抽取模型。第一种模型是BiGRU-CNN模型,该模型是将BiGRU网络和CNN网络以串联的方式组合,同时利用了CNN网络和RNN网络的优势。另一种模型是BiGRU-Incep模型,该模型是将BiGRU网络和Attention机制相结合,而且并联使用了一维Inception结构。针对同一实体对的多实例问题,采用了关系抽取中加入句子级别注意力机制的方法,减少了远程监督算法带来的噪声影响,提高了实体关系抽取的准确率。在特征选择上面,本文使用预训练的词向量作为主要的特征输入,另外还使用了容易获取的词性和位置等特征,避免了复杂的特征工程。实验表明使用预训练词向量和加入词性位置等特征能够提升模型效果。最后,本文使用新提出的关系抽取模型,并结合知识图谱构建的其他步骤,构建了一个小型的企业图谱,具有一定的实用价值。
其他文献
在现实生活中的许多基础设施网络上常常会爆发级联故障现象,级联故障一旦发生,便会造成不可估计的损失甚至是灾难性的后果。随着单层次网络上级联故障研究的日趋成熟,不少研
大部分预应力混凝土桥梁逐渐步入“中年”或“老年”。在其服役期内,由于荷载、腐蚀、疲劳、老化及环境因素等不利条件的影响,预应力桥梁结构将产生损伤积累、抗力衰减甚至导致突发性事故。对预应力结构开展损伤检测及健康状况评估已成为土木工程界重点研究的课题,以预应力混凝土桥梁结构为工程对象,开展预应力混凝土永存应力的检测和健康评估,主要从以下几个方面开展:通过室内模型试验,建立预应力混凝土结构永存应力释放规律
相对于现货市场,股指期货具有良好的流动性、灵活的开平仓制度,使得股指期货在资产配置过程中起到了降低投资风险的作用。由于上证50股指期货2015年才上市,历史数据少,目前对金融期货市场的研究较少,缺少成熟的股指交易策略参考。本文讨论了能够准确地预测股指价格的变动趋势而获取价差收益的一些问题。首先构建了不同时序周期的ΔT时序样本集作为模型输入,然后在优化机器学习预测模型和改进CTA趋势策略的基础上,构
目前,生猪散养在辽西地区仍有一定比例,尤其是近年来养猪户的层次、构成比较复杂,散养猪的传染病防控已成为当前农村山区养殖业中难度较大的问题。随着生猪流通的便利与频次
古诗教学应关注审美特征,而语文核心素养观照下的古诗审美教学,目的是培养学生的“审美鉴赏”与“文化传承”。我们可以通过借助语言媒介,再现古诗的形象关;关注经典形象,领悟古诗
在我国环保政策日趋严格的大环境下,企业排污排废成本成为了生产经营成本中的一个重要支出。如何适应新环保政策形势,采取适当的财务活动直接关系到企业的经营利润。环保税实