【摘 要】
:
伴随着互联网数据的爆炸式增长,如何存储、管理、应用这些杂乱的非结构化数据,已成为人工智能领域的热门课题。知识图谱把杂乱数据中的概念、实体及其关系整理成结构化数据,并存储到图结构中,转化为人类认识世界的形式,利于管理、搜索、分析以及应用海量数据。实体关系抽取作为知识图谱构建任务的重要步骤,主要任务是把非结构化文本转化为结构化知识,直接影响着知识图谱的质量。同时,实体关系抽取还是搜索引擎、人机对话、智
论文部分内容阅读
伴随着互联网数据的爆炸式增长,如何存储、管理、应用这些杂乱的非结构化数据,已成为人工智能领域的热门课题。知识图谱把杂乱数据中的概念、实体及其关系整理成结构化数据,并存储到图结构中,转化为人类认识世界的形式,利于管理、搜索、分析以及应用海量数据。实体关系抽取作为知识图谱构建任务的重要步骤,主要任务是把非结构化文本转化为结构化知识,直接影响着知识图谱的质量。同时,实体关系抽取还是搜索引擎、人机对话、智能交互、用户画像以及机器翻译等技术的基础,具有重要的研究意义。目前,实体关系抽取任务主要有两种解决方案:流水线模型和联合抽取模型。流水线模型把实体关系抽取任务分为实体识别和关系抽取两个子任务,存在着错误传播的现象。联合抽取模型为解决错误传播问题,使用一个模型同时抽取实体和关系,但是现有模型难以处理三元组重叠问题。本文分析了实体关系抽取任务存在的问题,针对问题改进模型,以提高实体关系抽取任务的效果。首先,本文提出了一个基于分解策略的实体关系联合抽取模型。首先,优化模型编码器,采用Word Piece模型、BERT预训练模型、BIO词性序列编码以及Bi LSTM模型,改进编码效果。然后,将实体关系抽取任务分解为两大阶段(头实体抽取和尾实体抽取),此措施可以帮助模型解决三元组单实体重叠问题。接着,将关系和尾实体抽取分解成并行的三个子过程,此措施可以帮助模型解决三元组中绝大部分实体对重叠问题。最后,将头实体抽取和尾实体抽取的每个子过程,都转化为序列标记任务,利用指针标注模型来处理。本文在NYT数据集上评估本模型,获得了良好的效果,Precision=87.0、Recall=85.1和F1=86.0。然后,本文提出了一个基于机器阅读理解的实体关系联合抽取模型。(1)将实体关系抽取任务转化为两段连续的机器阅读理解任务。阶段一,根据实体类型编制实体问题,抽取文本子序列回答实体问题,得到文本中所有实体;阶段二,根据当前实体和关系类型编制关系问题,抽取文本子序列回答关系问题,得到和当前实体有关系的所有实体。(2)对文本和问题进行编码,利用向量拼接的方式融合文本特征和问题特征,利用指针标注模型来抽取文本子序列生成问题答案。本文在NYT数据集上评估本模型,获得了良好的效果,Precision=86.7、Recall=86.2和F1=86.4。
其他文献
图像作为信息最直观的表达,应用广泛。随着前端数据采集传感器的发展,单源信息已不能满足日益复杂的需求。不同源图像具备不同特性,红外图像物体轮廓清晰、包含热度信息,但像素值低、细节缺乏;可见光图像与之相反。一个自然的想法,将这二者融合可获得更有价值的图像。另外,由于光学传感器成像原理的限制,单镜头无法保证画幅全对焦,将同视角下通过调整焦距获得不同景深目标的局部清晰图像对进行融合,以获得整体清晰的图像。
近年来,目标检测算法发展十分迅速,成果也非常显著,基于深度学习的检测算法更有着远超传统算法的性能。但是,该领域的发展仍然存在着一些问题和挑战。首先是在特定检测应用场景,比如人头检测中的虚警和漏检问题,限制了其在一些对计数准确度要求比较高的情况下的应用;其次,由于全监督下基于深度学习的检测算法一般需要大量的标签才能够训练出一个比较好的模型,为降低大量标注所带来的人力和物力上的消耗,出现了半监督和弱监
作为自然语言处理中的一项重要任务,机器阅读理解(Machine Reading Comprehension,MRC)已经受到了业界内广泛的关注,大量研究人员正积极探索这一新兴领域。其具体指的是让机器依据给定的文本信息来回答一个语义相关的问题,通常这是一个较复杂和漫长的流程,涉及到语义编码、信息融合、模块交互等众多方面。而多跳MRC则在此基础上提出了更高的要求,要求机器具备推理能力,本文就此任务展开
新型冠状病毒疫情的突发及在全球范围内的迅速蔓延,人们对于防疫用口罩的需求激增。防疫用口罩的种类繁多,各类适用的场景有所不同,在选择和使用上容易存在误区;大量的防疫用口罩产品的使用带来的环境负面影响不可小觑。此前,纺织领域的研究者已将碳足迹、水足迹及化学品足迹等生命周期评价方法的指标相结合,量化评估纺织业所产生的温室气体排放、水资源消耗和化学品污染相关的潜在环境影响。但是,国内外学者对防疫类口罩的环
图像目标检测是计算机视觉领域的一个基础任务,主要用于自动识别和定位图像中的特定目标,是许多人工智能技术的基础,有极其重要的军用民用价值。近年来,基于深度学习的目标检测方法取得了飞速的发展,也成功应用于一些工业场景。但是,可靠性不足、计算量过高、泛化能力差等问题大大限制了目标检测算法的应用范围。本文以大规模公开的数据集中的目标为对象,对图像目标检测算法展开了研究。研究工作包括三个部分:(1)总结了目
多目标跟踪任务需要在视频图像中确定目标位置、维持目标身份信息。通过将深度学习方法应用到数据驱动条件下来学习特征的思路已经在多个研究领域取得了很好的效果。因此,本文将深度学习方法引入到多目标跟踪框架中,期望提升跟踪的整体性能。此问题的研究具有重要的工业价值与广泛的军事应用前景。本文主要工作包括以下三个部分:(1)分析了多目标跟踪问题研究现状与发展趋势,对主流多目标跟踪公开数据集MOT16进行了详细说
随着近年来深度学习的不断发展,出现了很多结构复杂,性能优异的深度神经网络。越来越多的人工智能应用领域如计算机视觉、自然语言处理和语音识别等都使用深度学习方法解决问题。在构建深度神经网络后,需要给网络提供高性能的计算环境和大量的训练数据,才能充分发挥神经网络的优势。在现实生活中,很多领域难以获得足够的训练样本,因此会造成网络的性能下降。此外,传统的神经网络可扩展性较差也是深度学习方法的缺点之一。因此
多目标跟踪作为计算机视觉的一个重要分支,在智能机器人、视频分析、人机交互等领域都具有最要的应用价值。近些年来,深度学习在多目标跟踪方向的应用极大地提升了跟踪的精度,但随着视频监控、自动驾驶等领域的出现,对多目标跟踪算法的实时性需求也越来越大。为了解决这些问题,本文着眼于在保证多目标跟踪精度的同时提升算法的速度,主要进行了以下几方面的研究:(1)提出一种表观和运动特征融合的多目标跟踪算法。该算法基于
狮纹在中国的发展有其独特的作用和含义,来自异域的狮子题材在丝绸之路中往复传递并逐渐产生变异,在向华夏文明圈传播的过程中慢慢向中原本土转化。受不同时期的社会背景与受众需求影响而有着不同的象征意义,其内在的蕴含不断变化。论文以北朝至元代丝织品中的狮纹为研究对象,以同时期金银器、石刻、绘画、壁画等其他艺术形式上的狮子形象为辅。研究内容如下:论文首先从墓葬出土实物、博物馆的部分馆藏实物和私人所藏狮纹丝织品
为了进一步改善拉萨市墨竹工卡县扎雪乡格老窝村青稞品种单一、品种严重退化等问题,加快推进新品种示范进度,结合当地实际情况及需求,特选取拉萨市农业技术推广总站育种的青稞新品种“苏拉青2号”与当地品种“白青稞”,于2021年在墨竹工卡县扎雪乡格老窝村开展了品比试验,挖掘新品种的丰产适应性及潜力。试验结果表明,“苏拉青2号”新品种广适性高、丰产性好,适合在该区域推广种植。