【摘 要】
:
随着现代化知识抽取技术的不断发展,许多领域都构建和发布了知识图谱。尽管当前有大量图数据管理方法提出,但是难以满足知识图谱体量大、模式复杂、更新频繁的特点对知识图谱存取提出的新要求,主要体现在下述两个方面:其一,知识图谱模式复杂的特点使得其存取方式相比关系数据更为复杂。而现有的图数据存储结构和索引的选择方法通常交由数据库管理员负责,而知识图谱体量大的特点使得数据库管理员难以掌握图的全貌,因此人工存取
论文部分内容阅读
随着现代化知识抽取技术的不断发展,许多领域都构建和发布了知识图谱。尽管当前有大量图数据管理方法提出,但是难以满足知识图谱体量大、模式复杂、更新频繁的特点对知识图谱存取提出的新要求,主要体现在下述两个方面:其一,知识图谱模式复杂的特点使得其存取方式相比关系数据更为复杂。而现有的图数据存储结构和索引的选择方法通常交由数据库管理员负责,而知识图谱体量大的特点使得数据库管理员难以掌握图的全貌,因此人工存取结构选择难以满足各式各样应用中大规模多样知识图谱的要求。其二,当知识图谱或者其工作负载发生变化时,知识图谱存取结构需要进行适应性调整以保证查询处理过程的高效,这要求数据库管理员识别出知识图谱的特征和工作负载的变化并及时调整存储结构和索引,而知识图谱变化频繁的特点使得人工难以完成这个任务。因此,亟需知识图谱存取结构的自动选择技术,基于知识图谱特征和工作负载实现存取结构的自动设计,依据数据特征和工作负载变化实现存取结构自动调整来解决当前存在的问题,从而支撑知识图谱的多样应用。近年来,机器学习技术的迅速发展为知识图谱存取结构自动选择提供了机会和途径。考虑到机器学习特别是深度学习等技术适合于描述复杂模式和求解复杂优化问题,本文将其应用于知识图谱的存储结构性能预测、存储结构自动调优和索引自动选择,以实现基于机器学习的有效知识图谱存取结构自动选择。本文的主要研究内容概括如下:1.本文研究了基于机器学习的知识图谱存储结构性能预测问题,即给定知识图谱及其工作负载,预测在特定存储结构下执行该负载所需的时间代价。本文提出了基于机器学习的知识图谱存储性能预测器Pre Kar,能够根据给定的知识图谱及其负载预测候选知识图谱存储结构的性能。为收集足够的数据用于模型训练,本文提出了候选存储结构生成器。该生成器包含最大星型子查询识别器、谓词连接图构建技术和谓词组合搜索技术,不仅能获取用于训练的所有可能候选存储结构,而且成倍增加了训练数据量。本文设计了一个轻量而有效的面向知识图谱负载及其存储结构的嵌入策略,其不仅能将工作负载和候选存储结构的主要特征嵌入到训练模型中,而且保证了性能预测器的高效性。2.本文研究了基于强化学习的知识图谱存储结构自动调优问题,即给定知识图谱及其工作负载、当前的知识图谱存储设计、图数据库存储容量上限,计算出新的知识图谱存储设计,以最小化在工作负载上的查询代价且满足图数据存储容量预算。本文设计了一种新的知识图谱双存储结构,同时使用图数据存储结构和基于关系的存储结构,将图数据库用于响应复杂的知识图谱查询。为确保双存储结构的高效性和适应性,本文针对关系型存储和图存储的双存储结构物理设计调优问题提出了解决方案,即基于强化学习的双存储调优器DOTIL,其能够根据动态的工作负载自动决定哪些数据划分应该在什么时候从关系型存储迁移到图存储。DOTIL不仅保证了双存储结构的适应性,也加速了复杂查询处理过程。3.本文研究了基于强化学习的知识图谱索引自动选择问题,即给定知识图谱及其工作负载、索引容量上限,计算出一个索引向量使得历史工作负载在该索引上的查询代价最小,且索引大小在容量预算内。本文提出了基于强化学习的知识图谱索引选择器ANSWER,能够根据给定的知识图谱及其负载自动确定索引配置。为基于历史工作负载训练出最优的索引调优策略,本文设计了谓词过滤器,其不仅能确定哪些谓词对应的垂直划分表适合建立索引,而且有效缩减了强化学习模型的动作空间大小。本文设计了轻量级索引编码器,其不仅能将候选索引结构的主要特征嵌入到训练模型中,而且保证了知识图谱索引选择器的高效性。4.本文在基于机器学习的知识图谱存储结构性能预测、存储结构自动调优和索引自动选择三个关键问题的研究基础上,研发知识图谱存取结构自动选择系统,使其具备知识图谱存储结构自动调优和索引自动建立的能力,从而实现知识图谱存取结构的自动选择。本文提出了基于强化学习的知识图谱存取结构自动选择系统APRIL,其包含三个主要功能,即存储结构自动设计、索引自动选择和知识图谱查询处理。APRIL系统为用户提供了友好的接口,实现了自动化知识图谱存取结构选择和用户定制化知识图谱存取结构选择。上述四点主要研究内容涵盖了基于机器学习的知识图谱存取结构选择中“存储结构性能评估、存储结构自动调优、索引自动选择”这三个重要步骤,本文为每个步骤中的关键科学问题提出了相应的解决方案,并通过基于强化学习的知识图谱存取结构自动选择系统验证了所提出方案在提升知识图谱查询处理性能方面的正确性、有效性和可用性。
其他文献
航空轴承作为航空发动机中重要的传动和支承元件,其早期故障对于航空发动机安全稳定运行的影响不容忽视。目前,常规轴承监测手段受传感器原理的限制,轴承早期故障的识别准确率难以满足工程实际的需求。因此,本文提出一种基于弱磁信号检测的航空轴承早期故障监测方法,通过对航空轴承弱磁监测技术机理的研究,分析早期故障的弱磁微弱信号有故障信息微弱、信噪比低、故障特征冗余度高以及二阶非平稳性的特点,针对弱磁监测信号的特
利用城市公园中的声景和景观不但可以掩蔽交通声的声信息和声能量,而且能够改善城市公园的声环境,从而使使用者达到良好的心理反应状态。然而,近年来的相关研究明显不足,且基于心理反应的声掩蔽作用机制并不清晰。因此,本文旨在通过研究基于心理反应的城市公园声景掩蔽阈值,明确掩蔽目标和掩蔽方法,在此基础上,计算出积极声源对交通声的声信息掩蔽机制以及典型景观对交通声的声能量掩蔽机制,并最终设计和优化了改善使用者心
室内环境影响着人们的感受、健康和工作效率,开展室内环境舒适度评价十分必要。目前室内环境舒适度的研究多围绕单环境条件展开,然而室内环境并非仅存在一种环境因素,因此考虑多环境条件,对室内舒适度展开评价更具合理性。但是已有多环境条件的舒适度研究对环境参数与舒适度感受间的联合作用、环境参数波动性、舒适度不确定性分布等考虑不全,还有待于进一步完善。基于上述情况,本文针对室内物理环境舒适度,在气候室实验的基础
非点源污染是影响受纳水体质量的主要污染来源。因非点源污染产生过程的复杂性,对非点源污染的研究一直是社会各界关注的重点,这不仅影响生态环境的建设,也关系到农业可持续发展的进程。阿什河流域是我国北方寒冷地区的典型小流域,农业与矿产资源丰富,因此农业生产与采矿业均较为发达。多年高强度的农业生产方式导致了化学用品使用量的逐年增加,并且矿产开采过程中污染物质会随着径流的迁移对周围生态环境造成危害。因此,各类
作为中国北方城市,哈尔滨受以PM2.5污染为主的大气环境问题影响。PM2.5污染在采暖期甚至上升为哈尔滨市的首要环境问题,但是污染形成的影响机制、PM2.5中无机氮组分生成路径、无机氮组分前体物排放源贡献率、微生物组多样性及与环境因子的关联等问题仍不明确。因此,有必要对PM2.5污染特征和组分特征及污染成因进行研究,尤其是2017年哈尔滨市PM2.5年均浓度出现反弹,该年份出现的PM2.5污染更值
降雪会降低道路摩擦系数,增加车辆油耗,引发车辆碰撞、刮擦事故,影响道路通行能力,甚至威胁人民生命财产安全。为了及时除雪、保障道路通畅,高效除雪技术不断被提出,这些除雪技术中,循环流体加热路基融雪系统可根据天气条件主动除雪,系统可控性强、节能高效、热源广泛、安装简便,具有巨大的发展潜力和广阔的应用前景。但是系统仍存在能耗设计不合理、缺乏系统特性评估等问题,因此,本文结合实验和数值模拟,深入研究严寒地
药品和个人护理产品(PPCPs)作为新兴的有机污染物,因其在世界范围内的广泛使用及其对水生环境和人类健康的潜在风险而备受关注,已成为污水处理领域的一大挑战。以半导体催化剂为核心的光催化技术在处理PPCPs方面具有巨大的应用前景。近年来,研究人员对光催化剂开展了大量的研究,研发了一批性能优异的光催化材料,但目前仍未能找到可替代TiO2的新一代可应用材料。究其原因,主要是人们重点关注的的光催化材料普遍
细菌感染对人类健康和生命构成严重威胁。抗生素的发现有效地控制了细菌感染疾病的发展,并大幅降低了感染性疾病的死亡率。随着抗生素不规范使用和滥用现象的加剧,临床细菌耐药问题日趋严重。尽管研究者投入了大量的精力对小分子库和常规的天然药物进行了筛选,但是,发现具有新作用方式的抗生素仍是一项艰巨的科学挑战。因此,加快新型抗生素的研发速度,探索一种不易产生细菌耐药性的抗菌策略迫在眉睫。在现有抗菌纳米材料中,金
随着水-能关系的日益紧张,探索低能耗和高效率的淡水获取方式成为当务之急。相比其他的海水淡化方式,膜蒸馏技术因其分离效率高、操作条件温和、对薄膜力学性能要求低、可利用低品位热源等特点受到广泛关注。但是温度极化效应等问题的存在导致膜蒸馏过程能耗过高、效率较低,阻碍其进一步的发展和应用。尽管采用光热和焦耳热等自热膜蒸馏过程能够有效缓解上述问题,但是目前依旧缺乏能够实现稳定和高效淡水输出的高质量复合薄膜,
本征正交分解(POD)和动态模态分解(DMD)是流体力学中处理流场数据的两种最常用的降维和模态分解方法,由这些方法得到的低维特征和分解模态在流动分析、降阶建模和流量控制等方面取得了相当的研究成果。然而这些线性低维特征在高雷诺数或复杂流场数据中不能保证同样的可解释性,且线性方法需要更多的分解模态来描述流动的主要流动特征。因此本文将研究基于非线性数据处理工具神经网络方法,推广用于流体系统的降维、模态分