高性能学习索引关键技术研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:tp153c
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,使用人工智能和机器学习优化数据库系统成为数据库领域的研究热点。其中,机器学习与数据库索引技术的交叉融合催生了“学习索引”这一新的研究方向。学习索引是一种内存索引,它使用机器学习模型替代传统的数据库索引。具体而言,它将键作为模型的输入,并输出该键对应的记录在排序数组中的位置。和传统索引不同,学习索引能够感知数据的分布规律,并通过模型推理快速地定位数据。与B+树等传统索引相比,学习索引具有更低的空间代价和更高的查询性能。从目前的趋势来看,学习索引有望取代传统索引,在未来的数据库系统中扮演重要角色。然而,最初的学习索引存在许多问题,限制了它的性能和可用性。这些问题主要包括:(1)学习索引不支持插入,只能工作在静态数据集上;(2)学习索引不具有有界的查询复杂度,在最差情况下需要扫描整个数据集;(3)学习索引的局部搜索范围较大,达到了数十个缓存行大小,所以缓存效率较低;(4)学习索引工作在DRAM上,不具有持久性,当系统崩溃时会丢失数据;(5)学习索引只支持数值类型的键,不支持变长键。最近的一些工作使用异地插入或就地插入策略来支持数据插入,并使用分段线性回归模型和自下向上的索引构建方式来保证有界的查询复杂度。然而,这些工作都没能同时获得高读写性能和有界的查询复杂度,而且它们都没有考虑缓存效率、持久性和对变长键的支持。本论文以高性能学习索引为研究目标,在支持插入和保证有界的查询复杂度的前提下,从缓存效率、持久性和支持变长键三个方面优化学习索引,为构建高性能的学习索引提供技术参考。总体而言,本文的主要工作和贡献可总结为以下几个方面:(1)针对学习索引的缓存效率低以及缺乏高效插入机制的问题,本论文提出了一种缓存感知的学习索引—COLIN。COLIN采用就地插入策略,在构建节点时预留一些空位,并利用这些空位优化节点内的数据放置。通过基于模型的数据放置策略和缓存感知的数据布局,COLIN将索引的局部搜索范围与模型的最大误差解耦。此外,COLIN的节点设计采用了学习节点与简单节点两种结构,其中学习节点用于保证索引结构的扁平特性,简单节点则用于支持越界插入与数据溢出。在多种实验负载和真实数据集上的实验结果表明,COLIN的读写性能均优于目前最新的学习索引,包括FITing-Tree、PGM-index 和 ALEX。(2)针对学习索引不具有持久性的问题,本论文提出了一种面向非易失内存(Non-Volatile Memory,简称NVM)的学习索引—PLIN。NVM具有非易失性、接近DRAM的访问延迟、支持按字节寻址和高密度等优点,有望成为未来DRAM的替代品。然而,在NVM中实现学习索引存在许多挑战。首先,现有的NVM树形索引依靠小节点结构来实现高效的崩溃一致性,但这类设计无法在学习索引的大节点中保持高效。其次,现有的学习索引结构对NVM不友好,需要设计新的结构来适应NVM的特性。PLIN采用了若干新的设计,包括NVM感知的数据放置策略、模型副本机制、局部无序且全局有序的叶子节点以及分层插入策略。本论文利用真实的英特尔傲腾持久内存搭建了实验环境,并使用多种实验负载和真实数据集对PLIN进行了性能评测。结果表明,PLIN的读写性能优于其它NVM索引,包括FPTree、Fast&Fair 以及 TLBtree。(3)针对学习索引无法有效支持变长键的问题,本论文提出了一种支持变长键的学习索引—LIVAK。LIVAK的整体结构是一棵Trie树,树中每个节点用于索引键的8字节长度切片。LIVAK采用了学习索引和B+树两种类型的节点,它使用学习索引作为数据规模较大的Trie树节点,同时使用B+树作为数据规模较小的Trie树节点。此外,LIVAK使用路径压缩技术来处理较长的键,并通过字符重编码来避免键分布不连续导致的学习索引性能下降。在多种实验负载和真实数据集上的实验结果表明,LIVAK的读写性能优于Trie树的变体Masstree以及目前最新的支持变长键的学习索引SIndex。
其他文献
近年来,我国农业农村经济发展成就显著,但也付出巨大代价,耕地面积减少、质量下降、污染严重以及水资源不足等问题使中国农业发展面临越来越紧的资源约束。绿色发展是农业农村可持续的必由之路,更是国家绿色发展理念落实和实现乡村振兴的应有之义。基于绿色发展理念,本文以农业绿色全要素生产率来测度农业绿色生产效率,利用2004-2018年全国省级层面数据,使用环境生产技术、SBM方向性距离函数、Malmquist
学位
超表面由亚波长的二维人工周期性微纳结构组成,其灵活的结构设计方式和独特的电磁响应使得它们不仅能复现传统光学器件的功能,而且具有其他新颖的光学现象,符合现代光学系统对微型化和集成化器件的需求。但超表面在实际应用中还受到诸多限制,如工作波长主要集中在可见光和近红外波段;需要使用高相干性的激光光源;复振幅调制型超表面的应用潜力尚未被深入挖掘。为拓展超表面的应用领域,本论文通过设计和制造不同微纳结构的超表
学位
为降低长距离管道成本以及提高输送效率,大口径高压输送管线是管道工程发展的必然趋势,因此需要采用高强度等级的管线钢,虽然X100以上级别的管线已研究开发和铺设试验段,但考虑到焊接性能,纵向和环向止裂性能的高要求和性价比、安全性等综合因素,X80管线钢成为国际上高强度管线钢的首选钢级。而对X80级管线钢的性能要求也因管线工程应用环境的不同产生差异,如在深海地区和极寒地区对其抗大变形的能力和低温韧性的要
学位
重金属离子污染不仅影响了地球生态圈的稳定性,并且给人类的健康带来了重大的威胁。如何通过简便的方法实现对痕量重金属离子的快速,高灵敏检测对保护生态环境意义重大。纳米尺寸的过渡金属化合物由于具有很强的尺寸效应,存在未填满的价电子层和可调制的活性位点,因此具有较好的催化性能,在催化,电容器,电池等领域有着非常广泛的应用。此外,这些过渡金属化合物通过掺杂,与碳基材料结合等等改性手段又提高了材料本身的电化学
学位
二氧化碳(CO2)作为一种典型的温室气体,其浓度增加导致产生温室效应使全球气候变暖,并且由此引发一系列的自然灾害。通过CO2环加成反应与Knoevenagel缩合反应是缓解环境问题和提高能源利用率的有效手段之一。由于分子型催化剂与单原子催化剂的活性中心均一,易于确立催化剂与反应底物的吸附关系,在碳中和催化转化材料设计方面引起了广泛的关注,其他催化体系由于尺寸效应、载体效应、表界面效应等诸多影响因素
学位
俯冲壳源物质的深部再循环过程一直是地学界的研究热点,特别是与地球宜居性密切相关的深部挥发分循环越来越受到学者们的关注。得益于地球化学分析仪器和方法的进步和发展,挥发分(H2O、CO2、F、Cl和S等)和非传统金属稳定同位素(如Li、Mg和Zn等)被广泛地应用于示踪挥发分再循环过程。大量的地球物理和地球化学研究表明西向俯冲的太平洋板块是影响中国东部地幔属性和中-新生代玄武岩成分的主要因素。由于国内在
学位
报纸
锂硫电池因硫正极比容量高(1675 m Ah g-1)、能量密度高(2600 Wh Kg-1)、低成本等优点被认为是最具应用前景的电池体系之一。然而,锂硫电池工作过程中存在多硫化锂穿梭、体积效应、锂负极易生成枝晶等问题,限制了其广泛应用。针对上述问题,本文从锂硫电池正极材料出发,设计新型载硫基体(碳纸/二氧化锰、泡沫碳/二氧化锰、泡沫碳/CNT/二氧化锰),制备新型载硫基体/硫复合电极。此外,针对
学位
在数据化和智能化时代,社会生产生活实践中充斥着大量最优化问题。这类问题往往具有复杂特性,例如非凸、多模、不可微等,甚至难以建立精确的数学模型。演化算法因其群体搜索的特性而被广泛用于求解复杂优化问题。但是,问题维度的激增对演化算法的可扩展性提出了严峻的挑战。本文对演化大规模优化算法开展研究,包括面向无约束和有约束的大规模优化问题构建协同演化框架、设计演化优化的基础策略,给出大规模优化测试基准等。具体
学位
随着城市的快速发展,城市道路交通和轨道交通建设进程加快,但交通噪声问题也随之而来。长期暴露于交通噪声环境会导致情绪烦躁、睡眠障碍、高血压、心血管疾病和认知障碍等疾病。为提高居民生活质量和幸福指数,亟须尽快改善城市交通引起的噪声污染问题。通过对城市交通噪声的评估与预测,可实现对现有交通噪声的整治与防范,并进一步预判规划线路交通噪声的可能事件,以提前为城市交通噪声处治预留实施空间。交通噪声与城市道路条
学位