基于开放域信息抽取与图匹配的短文本问答研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:shaochao0926
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机软硬件以及互联网技术的迅速发展,人们对于人工智能方向的研究日益深入,越来越多的自然语言文本需要机器进行自动化、智能化的处理,并在此基础之上实现人机交互。针对自然语言文本的处理不仅是实现人机交互重要的基础环节之一,同时也能产出大量的有价值数据,在大数据时代的今天,不仅具有非常重要的科研价值,同时也具备很高的应用价值。随着对此方向研究的逐渐深入以及神经网络技术的飞速发展,人们发现使用神经网络模型来处理短文本问答任务具有很好的效果,然而,神经网络模型并不擅长处理逻辑推理问题。相反,传统的符号化方法在解决逻辑推理问题上展现了独有的优势。符号化方法可以应用预定义的推理规则和公式,或者通过学习的方法产生推理规则来指导逻辑推理过程的进行。然而,符号推理规则的产生面临着两个方面的挑战:一方面,需要大量的人力资源投入进行规则的定义和生成;其次,将自然语言文本进行抽象,从而转换成逻辑表达这个过程具有很高的难度。现有的两类方法在短文本问答上都具有明显的缺陷,基于神经网络的端到端模型在解决逻辑推理问题上的表现不好,传统的符号化方法在处理文本上的阻碍非常之大,文本向逻辑表达的转化代价非常之高,现有的这两类方法都不能很好的解决短文本问答任务。本文将传统符号化方法与神经网络技术相结合,我们采用开放域信息抽取与图匹配算法相结合的研究路线对短文本问答技术进行了深入的研究。其中开放域信息抽取负责完成对文本的结构化,图匹配算法作为符号推理的基石。本文包含以下的研究内容:1)图上的正则表达式匹配算法;2)基于神经网络算法的开放域信息抽取技术;3)将开放域信息抽取技术与图上的匹配算法相结合,对短文本问答技术进行了研究,本文的研究成果如下:1.本文研究了在训练数据充足的情况下,如何提升神经网络算法在开放域信息抽取任务上的性能。该问题是自然语言领域内重要的分支之一,是构建知识图谱最重要的手段之一,同时也为下游应用构建大量的有价值数据。在传统RNN模型的基础之上,本文提出了基于Transformer构建的多任务模型,生成式网络对抗模型,以及元学习模型来应对开放域信息抽取任务。算法模型在准确率与召回率两个评测维度上均优于传统的开放域信息抽取系统。多任务模型通过增加协同训练任务,在原有模型基础之上进一步提高模型的准确率和泛化能力,生成式对抗网络模型将模型训练由数据分布转向模型参数分布的方式,可以有效应对模型训练过程中产生的曝光偏差问题。元学习模型意在应对开放域信息抽取任务模型的更新迭代,在原有模型的基础之上,添加转换器模型,保证模型性能的前提下实现自动更新。2.本文研究了在训练数据不足的情况下,如何实现对开放域信息抽取模型的训练。训练数据缺乏是端到端的神经网络模型往往要面临的问题,现有的数据生成普遍借助于已有开放域信息抽取系统,此种方式会引入数据噪声问题,并且模型的性能严重受限于已有开放域信息系统的性能。本文开创性的使用远程监督学习来生成数据,远程监督学习在关系抽取领域内有着广泛的应用,借助于知识图谱数据和网络文本数据,采用远程监督学习的方式,可以大量生成数据噪声更少的训练数据,在开放域信息抽取任务上用以训练神经网路模型。实验证实,采用远程监督的方式所生成的数据用以训练神经网络模型可以大幅提高模型的准确率。此外,本文从模型优化的角度提出迁移训练模型来应对训练数据不足情况下的开放域信息抽取任务。迁移学习模型借助预训练模型来减少对训练数据的依赖。3.本文研究了图上的正则表达式匹配算法,因为正则表达式是一种高效并且简洁的范式,可以用以表达复杂查询,为此,我们研究图上的正则表达式匹配算法。图匹配算法在知识图谱应用以及数据存储领域有着重要的作用。随着大数据时代的到来,图上的实时查询挑战日益严峻,本文提出了基于大规模图数据上的正则表达式匹配查询,通过将图结构进行逻辑拆解,转化为一系列的逻辑表达式,再将逻辑表达式转化为一系列的物理表达式,在分布式大规模图数据上对物理表达式执行匹配查询操作,并在此基础之上,设计了针对查询操作过程的动态规划优化算法,从而保障图上的匹配查询过程可以做到实时。4.本文研究了短文本问答,采用开放域信息抽取技术与图匹配算法相结合的方式,应用符号化的策略来应对短文本问答任务。短文本问答是人工智能领域内重要的研究内容之一,是实现人机交互的重要基础。本文通过开放域信息抽取模型,将短文本进行自动化处理,采用图匹配的方式进行推理规则的产生并将研究成果应用短文本问答任务当中。采用开放域信息抽取任务可以有效提取句子结构,并规避了传统符号化策略文本转化的难题,采用图匹配的方式避免了人工定义推理规则,从而节省大量的人力成本。此外符号化的方式相比于基于神经网络的模型可以更高效的处理逻辑推理问题。
其他文献
心电信号(ECG)在心血管疾病(CVD)和反映所有与心跳有关的心脏疾病诊断中起着至关重要的作用。因此,临床医生使用它来表征心脏的性能和健康。根据世界卫生组织的资料,心血管疾病是全球非正常死亡的主要原因之一。在2016年,有1790万人死于心血管疾病(CVD),占全球非正常死亡人数的31%。此外,这些死亡大多数发生在低收入国家,心脏性猝死(SCD)几乎占所有上述CVD死亡人数的一半,其中心律不齐是造
学位
海上风电具有资源丰富、布局集中的特点,当离岸距离很远时,基于模块化多电平换流器的柔性直流输电技术是海上风电并网的理想方案。然而,柔直的解耦特性导致海上风电场不能对电网故障实现主动响应,故障后的不平衡功率将导致严重的直流线路过电压,危及设备安全。因此,风电-柔直的交流故障穿越问题成为主要挑战。在现有的故障穿越技术中,降压控制方法可有效折中技术和经济性,但还存在一些关键问题亟待解决:在设备层面,风电场
学位
不同序列间语义关系建模是自然语言处理领域的核心问题,在不同的应用场景下,该问题可以被当作文本推理或文本生成。其中文本推理是指给定输入序列和目标序列的情况下,研究如何判断他们之间的语义关系,文本生成则是研究只给定输入序列而目标序列未知的情况下,如何根据输入序列产生目标序列。本文分别以自然语言推理和机器翻译这两个文本推理与生成各自的典型任务作为目标任务,探索推理与生成技术,然后将它们扩展到多模态场景下
学位
为了保护和促进可持续发展,需要对土壤进行岩土工程研究。本项研究基于热带地区路面垫层的不稳定性开展的,采用了来自热带地区路面性能的相关数据。该研究的主要目标为:确定熟石灰与水泥之间的百分比,以此提高路面黏土砂土垫层的粘合力,以增加路面层之间的承载力。另外,基于岩土工程的测试结果来确定合适的路面施工技术具有很重要的意义,例如基于粘性土层结构构建路面结构模型。其次评估以再生沥青路面(RAP)材料为基层、
学位
弱信号检测技术旨在实现强背景噪声下目标弱信号相关参数的准确检测与识别。目前,随着智能化技术的飞速发展,对空间内爆炸式增长的各种弱信号进行准确采集、传输、接收及分类学习,是通信领域各项智能化技术顺利开展的基石,具有重要的研究价值及研究意义。通信网络中复杂多变的背景环境对目标弱信号的检测能力提出了更高的要求,不仅需要其检测精度高、效率高,还需要对弱信号的发射装置进行位置估计。在弱信号检测中,相比于线性
学位
<正>单元语文要素:人文主题:舐犊之情,流淌在血液里的爱和温暖。语文要素:体会作者描写的场景、细节中蕴含的感情。表达要素:用恰当的语言表达自己的看法和感受。教学目标:1.朗读课文,学习本课的生字、词语,通过联系上下文、观察字形等方法理解“茶房”“粜稻”“初小”“高小”的意思。2.发现规律,梳理出“我”梦中出现的难忘的场景。3.细读主要场景,化身导演拍一拍父爱瞬间,体会父亲深沉的爱。
期刊
遥感技术利用搭载在多种平台上的各类型传感器,通过非接触手段获取感兴趣区域的多重信息,为资源环境调查、农作物生长监测、自然灾害预警、城市发展评估及指导等方面提供了重要的信息支撑。全天时、全天候的特性使得合成孔径雷达(Synthetic Aperture Radar,SAR)成为联合多平台遥感图像实现信息最大化应用的重要组成。现阶段,成像技术的发展在提高了空间分辨率、丰富了目标细节的同时,也给SAR目
学位
管路常作为汽车、飞机等产品中制动系统的关键零部件,其空间形态加工精度直接影响产品的寿命和安全性。管路空间形态测量是生产合格管路产品的基础。但是管路表面复杂、结构细长、种类繁多等特点导致其自动化测量实现困难。为实现细长管路在工业生产现场的自动测量,本文设计了基于机器人、直线滑台、激光轮廓仪、面阵相机和激光位移传感器的管路机器人测量系统。它兼具了机器人的灵活性和激光轮廓仪的高精度、高稳定性等优点,是实
学位
单层MoS2,因其具有特殊的光学、电学、力学性质,在集成电路和逻辑器件的应用上有巨大的应用潜力,被认为是最有可能实现下一代电子和光电子器件的材料。但制备大尺寸、高质量的样品仍然具有挑战性,目前所生长的单层MoS2在实际应用中具有较大的局限性。近年来,利用化学气相沉积(CVD)法生长单层MoS2的过程中引入碱金属盐作为促进物被广泛关注,但现阶段对促进机制缺乏合理的解释。本论文,从碱金属化合物辅助大尺
学位
在化学化工领域用追求原子经济性的高效催化反应取代多步骤、高成本的合成反应,及寻求高效、绿色、经济可持续的合成方法一直是研究的核心问题之一。与分步反应相比,串联反应(Tandem reaction)因其简单、高效及分离步骤少等特点而受到了广泛的关注。酸碱串联反应在药物合成、精细化工及化学品合成等领域有重要的应用。而在同一载体上引入酸性和碱性催化活性位点,并保证酸碱催化位点不发生中和反应仍是一个研究热
学位