适用于最近邻检索的堆叠哈希量化算法

来源 :大连海事大学 | 被引量 : 0次 | 上传用户：czgtbhl

【摘要】

：

目前,各种类型的信息数据呈爆炸型增长。传统信息处理技术正面对着前所未有的挑战。如何在海量高维数据中高效查找目标数据,是计算机领域的热门问题之一。近似最近邻检索是解

【作者】

：

石佳

【出处】

：

大连海事大学

【发表日期】

：

2018年01期

【关键词】

：

最近邻检索高维向量 K-means K-means哈希

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

目前,各种类型的信息数据呈爆炸型增长。传统信息处理技术正面对着前所未有的挑战。如何在海量高维数据中高效查找目标数据,是计算机领域的热门问题之一。近似最近邻检索是解决该问题的一种方案,它的主要思想是提出新的近似距离度量,检索在这种度量下和查询对象距离最近的数据对象。目前,许多近似最近邻算法陆续出现,且被应用于多个领域。乘积量化是解决此问题的有效方法之一,具有内存消耗低,查询效率高等优点。不过,乘积量化需建立量化中心的距离查询表,时间复杂度较高。针对此缺点有人提出了 k-means哈希量化,直接把向量数据量化为二进制码,且尽量保持数据的空间近邻结构。由于二进制码汉明距离的计算远远快于向量欧氏距离计算,此方法节省了存储空间和运行时间。然而它本质上是把一个高维超立方体放在原始空间内做迭代优化,若立方体维度较高,优化速度过慢,内存消耗也比较大。为此,本文提出了一种新的量化算法——堆叠哈希量化算法。若要提高二进制码对于原始数据的近似程度,不能仅依靠增大超立方体的维度,可以通过利用多层低维立方体对原始数据进行逐步逼近,本文称之为堆叠哈希量化。该算法的核心思想为:第一步,在训练数据集上,用乘积量化将高维训练集划分为多个低维训练集;第二步,对低维子空间进行k-means哈希训练产生相应码本;第三步,计算上一步之后的误差向量,将其作为新的训练数据进行码本训练,得到相应码本;重复第三步直至达到给定误差或规定码本层数。再利用分层码本集对数据库的数据进行编码,得到多层哈希码。在线查询阶段,首先利用分层码本集对查询向量进行编码,然后通过汉明距离对查询向量和数据库里的向量进行近邻匹配。本文在公开的SIFT1M数据集和论文构造的SIFT17数据集上设计了实验,与经典的量化方法相比,本文算法在召回率、精确率、MAP值等性能指标上具有优势。

其他文献

地方政府公共政策执行偏差研究

地方政府是执行公共政策的主体,关系到政策目标能否有效实现。在实际执行过程中,诸多因素的制约着公共政策执行,少数政府存在不同程度、不同形式的政策执行偏差,导致地方政府的行政效率和质量被拉低,严重影响了地方政府的公信力和执行力。本论文主要分析影响地方政府公共政策执行的因素,寻找推进公共政策有效执行的办法,对促进乡村振兴,推进新农村建设,推动文化、旅游与其他产业深度融合、创新发展具有重大的实践意义,同时

学位

地方政府民俗文化执行偏差

基于遥感ET数据的区域水资源状况及典型农作物耗水分析

以遥感ET及实测降水数据为基础，借助GIS技术开展水分盈亏分析研究；同时依据项目区土地利用现状，选择冬小麦、夏玉米、棉花及人工草坪为重点分析对象，对其耗水及灌溉耗水规律进行

期刊

遥感ETGIS技术水分盈亏作物耗水作物灌溉耗水量remote sensing ET GIS technique water budget crop w

建筑施工质量管理及施工要点

要建造一个高质量、高标准的建筑产品,除了好的建筑设计外施工质量是不可忽视的重点,若是把设计比喻成建筑产品的灵魂,哪么工程质量就是延续灵魂的保障。因此要将建筑施工质

期刊

建筑施工防水层质量管理

牦牛青铜器与牦牛文化

1973年在甘肃省天祝藏族自治县哈溪镇出土了我国第一件重达80公斤的牦牛青铜器。1990年这件牦牛青铜器被国家文物局鉴定为国宝级文物。本文以较翔实的历史资料和民族学资料为

期刊

牦牛青铜器图腾崇拜物苯教艺术价值

适用于最近邻检索的堆叠哈希量化算法

其他学术论文