基于知识图谱的多跳推理问答技术研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:cj76680978
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识图谱是一种采用图结构化的方式存储现实世界中代表事物的实体以及实体之间的关系,为海量的非结构化互联网信息数据提供了一种行之有效的处理方式。以知识图谱作为数据来源的问答技术成为当今AI领域的热门研究方向,但目前基于知识图谱的智能问答技术在简单问题上的问答效果较好,却难以应对包含多个关系的复杂问题,缺乏复杂问题在知识图谱上的推理能力,大大降低了实际问答效果。本文对基于知识图谱的多跳推理问答技术进行研究,从嵌入的角度研究复杂问题在知识图谱上的多跳推理相关算法,对候选答案采用初筛和精筛层层递进的方式提高问答准确率,并将算法研究与系统应用相结合进一步验证算法的可行性。首先,为更好理解和操作知识图谱,本文提出利用Transformer模型实现知识图谱实体和关系的嵌入表示。在基于预训练模型ALBERT基础上开展对问题解析的研究工作,添加双向LSTM学习问题的上下文信息得到问题的表示向量,并设计ALBERT-BiLSTM-CRF模型提取问题主题实体。基于链接预测任务的思想,本文将主题实体向量和问题向量通过评分函数计算所有实体作为候选答案的置信概率分布,经过排序得到初筛的候选答案。最后本文使用新冠开放知识图谱的7个子图谱构造的Sub-COVID19知识图谱和COVID19-QA问答数据集进行模型训练,实验表明,基于Transformer的知识图谱嵌入模型比最早的TransE模型在Hit@1评估指标上有4个百分点的提升,并在提取问题主题实体任务上的F1值分数上达到82%。此外2跳复杂问题在知识图谱上的多跳推理问答准确率达到75%,均优于实验设置的对比模型。其次,对于初筛获得的候选答案,本文提出关系链推理纠正模型对候选答案进一步精筛获得准确率更高的答案,做法是将主题实体与候选答案实体在知识图谱上关联获得关系链,经过向量转换处理得到关系链表示向量,然后利用Simaese网络结构计算关系链表示向量和问题表示向量的语义相似度,并根据相似度分数对候选答案重新排序,提高问答准确率。经实验证明,关系链推理纠正模型在2跳和3跳复杂问题的问答准确率分别提高了2.61%和3.21%,获得很好的准确率提升效果。最后,本文结合多跳推理问答技术的研究工作,利用实验使用的新冠知识图谱和问答数据集设计和实现了新冠知识多跳问答机器人系统,支持不同复杂度问题的问答功能,以及提供多种人性化服务功能。此外,对系统进行了在功能和性能上的测试,测试结果表明问答系统能够基本满足理解用户问题并返回正确答案的要求,并保证系统运行时合理的处理耗时和吞吐量能力。
其他文献
近年来,由于互联网数据的爆炸式增长和多样化特点,跨模态检索成为了一个研究热点。跨模态检索就是利用一种模态类型的数据检索另一种模态类型的数据,可以帮助人们快速有效的利用不同媒体数据。哈希学习方法具有存储成本低、查询速度快的优点,利用哈希学习方法进行跨模态检索可以在一定程度上提高检索性能。然而,目前利用哈希学习进行跨模态检索的方法存在两个问题:一是现有的跨模态哈希方法只学习了数据的全局特征,全局特征表
学位
2019年,一种需要指定聚类数和均值数的K-多均值聚类算法被提出。此算法是K-means算法的扩展,一方面运用了多均值聚类的思想,为每个类设置多个均值,从而解决K-均值算法无法处理非凸数据集的问题,另一方面借鉴K-means算法的理论,把多均值数据集的聚类任务转化成一个优化问题后,迭代更新每个样本点的所属均值和所属类,从而解决多均值聚类算法的均值融合问题。K-多均值算法相比同类算法而言,聚类效果更
学位
在国家政策的鼓励支持下,集成电路(IC)行业进入快速发展阶段。正是由于IC的快速发展,使得模拟芯片也在近几年有了更加广阔的应用领域。其中逐次逼近型模数转换器(SAR ADC)作为一种常用的模数混合芯片,它具有低功耗,易制造,利于集成等优点,且在实际设计中,可以很好的适应工艺转变的需求,这些优点使它在工业控制,生物医疗,传感器网络等需要中等工作速度以及转换精度的领域受到了极大的青睐。随着这些领域对使
学位
随着科学技术的发展,特别是人工智能技术的兴起,任务型多轮对话系统逐渐成为学术界和工业界的研究热点。任务型多轮对话系统针对具体任务场景进行设计,通过与用户之间进行对话交互,收集所需信息,帮助用户完成特定任务。目前,任务型多轮对话系统主要有基于管道和基于端到端两种构建方式。基于端到端的方法由于存在对数据需求量较大、可解释性差和对话流程难以控制等问题。因此目前主流的做法是通过管道的方式构建任务型多轮对话
学位
为了尽可能的减少执法安全事故,提升公安机关的执法形象与执法公信力,以及执法办案效率,大力的推进公安大数据智能化建设成为了行业发展的迫切需要。依托于此需求,近年来,执法办案中心的人员定位管理系统逐步发展,智能手环的应用也趋于成熟,但始终摆脱不了嫌疑人员的行为无法记录,执法办案流程以及执法行为无法监管等行业痛点,且智能手环自身也存在成本过高、续航不理想、个人信息易泄露等缺点,如何在减少甚至不使用智能手
学位
随着信息技术和互联网的发展,数据库管理系统作为基础平台软件,在信息系统中扮演日益关键的角色。目前,国内多个核心行业仍大量使用国外的数据库产品,存在重大的安全隐患。因此,在国际形势日趋复杂的今天,发展国产数据库,让更多应用运行在国产数据库产品之上已是当务之急。数据迁移是数据库国产化的重要举措,然而现有的数据迁移项目大多采用直接迁移的方法,未全面了解源数据库并根据迁移数据库间的差异完成迁移,这导致数据
学位
现代电力系统中部署了大量的智能硬件设备,如智能电表等。智能设备在提供更多先进技术的同时,也给电力系统带来了很多漏洞,导致恶意窃电用户可以随时随地发动各种网络/物理攻击来窃取电力。窃电不仅给公共事业公司带来了巨大的经济损失,还可能引发火灾等事故,危害公共安全。所以,智能电网邻域网中窃电行为检测的研究目的就是及时发现邻域网中的窃电行为,并识别出所有的窃电用户。窃电用户识别的主要难点和挑战在于:如何设计
学位
近些年来,随着区块链的技术越来越成熟、去中心化的思想被越来越多的人认可,出现了各种各样新且广为人知的场景,如:非同质化代币等等。未来区块链不仅仅只是一个去中心化的加密货币的载体,它也变成越来越多应用的载体。未来区块链承载的价值会越来越大,相应而来的,区块链上需要存储更多的数据来支撑它的价值。但是现有的区块链方案大多数都是针对于小型数据以及大型数据上链的解决方案。随着区块链在非交易场景以及其他场景中
学位
区块链是在加密虚拟货币的应用基础之上兴起的一种分布式数据共享技术,在智慧城市、税务审计、金融科技等领域具有广阔的应用前景,为生产生活提供了弱中心化、高透明度、强公信力的统一数据平台。随着区块链应用场景的不断丰富,区块链的数据规模不断膨胀、检索需求持续增加且趋于复杂化。然而,现有的区块链平台往往只考虑单一的应用场景,采用粗粒度数据组织方式,普遍存在数据可用性差、可搜索性差、检索效率低等问题,已较难对
学位
区块链技术作为推动信息互联网向价值互联网转变的核心技术,广泛应用于金融、供应链和电子政务等重点行业。垂直行业信息融合与价值传递是充分激活区块链内生价值属性和潜力的重要一环。目前,区块链呈现布局碎片化、数据隔离化特征,难以实现垂直行业信息融合需求,使得信息价值阻塞,造成数据孤岛问题严重。然而,各行业区块链系统呈现差异化需求、定制化设计和异构化平台等特征,使得跨链数据交互与价值传递难以实现。现有区块链
学位