学习型多维索引研究

来源 :宁波大学 | 被引量 : 0次 | 上传用户:yanji0708
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统索引方式一般是一种通用的数据结构,不特别针对数据分布和特征设计或优化其索引方式,随着数据空间维度或数据量的增加,可能会导致存储消耗大且查询效率急剧下降。相较于传统的索引结构,学习型索引可通过学习数据的分布与特征来优化索引,进而可提升索引的查询效率和空间效率。由于多维数据一般无法直接给出确定顺序,当对查询数据有顺序要求时,则无法直接使用学习型模型学习数据的分布,因此学习型多维索引根据对查询数据是否有顺序要求可分为两类。一类为对查询数据有顺序要求的,如ZM索引,其空间效率以及点查询效率皆优于R树,但当查询区域增大时,需查询的数据规模过大,范围查询速度逐渐低于R树且其所使用的RMI模型在训练时速度很慢。另一类是对查询数据无顺序要求的,可直接使用学习型模型学习数据的分布。本文对查询数据有顺序要求,因此属于第一类索引类型。针对现有的这一类索引中的ZM索引所存在的问题,本文提出了ZFT索引(Z-order Fitting Tree Index)和HM索引(Hilbert Model Index)。主要工作内容包括以下两个部分:第一部分,针对ZM索引范围查询数据规模较大以及模型训练慢问题,本文提出了ZFT索引:基于分段线性回归的学习型多维索引。ZFT索引首先使用Z-order曲线将多维数据映射成一维的方式存储,再构造分段线性回归的学习型模型来学习映射后的数据。在范围查询时,ZFT索引根据Z-order曲线的特性将查询区间分为多个分段,再对每个相应的小分段分别进行范围查询。根据实验显示,ZFT索引在点查询效率略低于ZM索引,但范围查询和模型训练速度ZFT索引更优。第二部分,针对ZM索引所存在的问题本文提出了另一种改进方式,即HM索引:基于Hilbert曲线的学习型多维索引。Z-order曲线映射的时间复杂度虽低,但其聚类特性较差,可能导致范围查询的查询分段较多。HM索引使用聚类较好的Hilbert曲线代替Z-order曲线将多维数据映射成一维的方式存储,再构建分层索引模型来学习映射后的数据分布与特征。在范围查询时,HM索引会根据Hilbert曲线特性,对每个查询的范围进行分割,再分别对每个子查询区域进行范围查询,可有效地减少范围查询所需要搜索的数据规模。实验结果显示,将该方法与R树、UB树、ZFT索引以及现有的ZM索引比较,其查询效率和空间效率都有明显的优势。
其他文献
温度是生物研究中重要的指标,准确监测细胞在自然代谢过程中或药物刺激情况下的温度波动具有重要意义,能够为更深入的研究细胞在不同状态时的能量产生和扩散提供有意义的信息,对癌症和其他疾病的研究有一定帮助。采用荧光聚合物和热电偶探针等方法进行细胞温度测量存在测量精度低、细胞状态被干扰的局限性。本文研制的微芯片可用于监测微环境下的细胞温度波动,该微芯片由具有捕获功能的细胞培养结构和用于监测细胞温度波动的高精
学位
机械臂广泛应用于工业生产和社会生活的各个领域,传统的机械臂控制方法依赖于精准的环境模型,难以适应复杂的、未知的非结构化环境。近年来,随着人工智能技术的发展,结合深度强化学习的机器人控制技术有了长足的进步。深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)算法作为深度强化学习的经典算法,适用于连续控制问题,广泛应用于机械臂控制研究,但由于DDPG
学位
随着攻击技术不断发展,防御信息存储与传输所面临的各种威胁成为当今安全芯片领域的研究热点。物理不可克隆函数(Physical Unclonable Function,PUF)利用器件制造过程中固有的工艺偏差产生具有随机性与唯一性的数字指纹。攻击者难以通过常规攻击方式破解、克隆其中加密数据,可极大提高芯片的安全性。随着物联网技术不断更新,器件集成度不断提高,设备对能耗要求越来越高,极大限制PUF电路的
学位
面积和功耗限制了芯片性能的进一步提升,底层硬件的运算能力也不能满足日益增长的计算需求。与此同时诸多容错应用,如多媒体处理、数据挖掘和图像识别,也被越来越广泛的使用。在这样的背景下,人们提出了新的设计范式——近似计算。近似计算牺牲精度来换取电路性能的提升,可以为容错应用设计高效节能的系统。近似计算是指计算结果与正确结果之间存在偏差。近似计算技术应用到逻辑级优化电路的核心思想是人为引入一些错误输出来简
学位
随着人工智能时代的来临,对于芯片算力和功耗的要求日益提高。目前单片的晶体管密度已经达到0.9亿/mm~2,例如,英特尔基于IVY Bridge的四核芯片大约有十二亿个晶体管。设计这样异常庞大且复杂的电路无法依靠人力实现,必须使用自动化方式。电子设计自动化(EDA)是进行芯片设计所必不可少的工具,而标准单元库是使用EDA工具进行芯片设计的核心。当下主流的集成电路采用FinFET器件,目前FinFET
学位
随着“制造强国”战略的提出以及5G技术的广泛应用,与之相关的物联网技术得到了快速发展。然而,由于受到了电池寿命及更换电池困难等因素的影响,如何实现物联网各类传感节点的自供电已逐渐成为工业界和学术界广泛关注的热点话题。事实上,日常环境中存在丰富的射频能量信号源,大部分射频能量的发射具有全向性和全时段特性,会造成大量能量的浪费。因此,本文设计了一种基于射频能量收集的低功耗传感节点,可为传感节点的自供电
学位
SLAM(Simultaneous Localization And Mapping),即同步定位与地图构建,是机器人在一个完全未知的环境中解决定位、地图构建和导航的关键技术。SLAM系统通常由视觉里程计、闭环检测、后端非线性优化和地图构建等环节组成,其中闭环检测部分通过判断图像之间的相似性来解决位姿估计随时间的漂移问题,在SLAM系统中起到了重要的作用。传统的闭环检测方法大多采用人工设计的图像特
学位
深度学习技术已经在很多领域得到了广泛应用。与此同时,深度学习的安全性问题也随之而来,尤其是对抗样本问题。研究表明,目前大多数的深度学习模型容易遭受对抗样本的攻击。攻击者可以通过向正常样本添加细微的扰动,来生成高伪装性的对抗样本。深度学习技术的使用使语音识别技术更加高效与准确,帮助语音识别系统更好的理解用户,使语音识别技术真正走向了实用化。但对抗样本攻击的安全性问题,在目前主流的语音识别系统中仍然存
学位
随着当前信息时代的发展,神经网络以及机器视觉被开发的功能越来越多,并且在许多领域已经可以代替人类进行高精度以及高强度的工作。同时,随着社会经济的不断发展,越来越多的人选择长时间的坐姿办公模式,虽然长时间的坐姿办公显得轻松自在,但一系列日益严重的坐姿引起的疾患问题也随之而来,比如肌肉骨骼疾患、近视等。头部以及肩部姿态可以很大程度上反映人体坐姿状态。例如坐姿状态下的颈椎、用眼、手部、脊椎等情况。因此,
学位
随着车辆工业和世界经济的快速发展,汽车的数量不断增加,各种交通事故也越来越多。据统计,约五分之一的事故是由驾驶员在驾驶车辆中存在接电话、与乘客说话等分心驾驶行为导致的。交通安全问题已经成为全球关注的焦点,如何快速、准确地检测出驾驶员的分心行为,避免分心驾驶引发的交通事故是研究人员面临的一大难题。近年来,卷积神经网络(Convolutional Neural Network,CNN)凭借其突出的特征
学位