基于邻域碰撞计数的局部敏感哈希索引

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:mhb0512
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据不仅仅是信息的一种表达方式,更是潜在信息的载体。低维度的数据集通过传统数据库的方法很容易查询。近年来,数字化和网络化带来了数据的繁荣,图像和视频数据在整个大数据的比例已经要接近90%,非结构化的数据集导致了特征向量维度和特征向量集规模巨大,海量高维数据对数据库管理带来了诸多挑战和机遇。其中,海量高维数据的索引和查询作为一个十分重要的问题亟待解决。因此基于高维最近邻查询(NN:NearestNeighbor)得到了广泛的关注和不断的优化。其优势一方面在于高效率的存储方式和高速率的索引结构,同时另一方面保证在很多情况下有这良好的准确率。在实际应用中已成为解决海量高维数据检索研究的基础技术之一。解决海量高维数据近邻查询问题的方法可分为两大类:其一,局部敏感哈希(LSH:Locality-Sensitive Hashing)及其变种,通过随机映射或投影将高维特征映射成哈希编码,生成哈希函数。这样原始数据相邻的两个点在新的空间中相邻的概率依然很大而不相邻的点映射进同一空间的概率很低。其二,近邻图(NNG:Nearest Neighbor Graph),随机选取一点,充分利用数据点间邻域关系,通过构造图结构将候选点与其邻居进行比较从而提供近邻收敛路径,迭代更新候选点。本文首先对局部敏感哈希计数、近邻图进行了重点的关注和研究分析。在基于稳定分布的局部敏感哈希中,不同的哈希方法使用不同的策略重新组织哈希编码,但这些哈希编码重组策略使得哈希函数顺序静态化,可能会导致算法拒绝某些近邻被选作候选点。碰撞计数哈希(C2LSH:Collision Counting Locality-Sensitive Hashing)采用十分灵活的动态计数策略选择候选点,使得近邻更容易被选作候选点。值得注意的是,在C2LSH中,哈希函数的选取个数不受数据对象的维度影响,这使得C2LSH特别适合高维NN搜索。通过少量精度以求的近似最近邻而获取效率上的提升。为了对碰撞计数局部敏感哈希的效率和精准性进行进一步优化,本文提出将通过碰撞计数和近邻图两种不同的方式更新候选点集,通过近邻的邻居可能也是一个好的近邻这个原则进行邻域投票,重新计数后优化候选点集。通过较少较优的候选集点来实现高精度的近似最近邻查询,使得哈希编码对距离查询较近的数据对象具有更好的区分度。将邻域碰撞哈希与近邻图结合起来,以较高的召回率和精准率实现高维数据的快速近似最近邻查询。本文通过在不同的高维数据集上的大量实验,其实验结果表明了基于邻域碰撞计数的局部敏感哈希索引与当前流行的LSH方法在性能上是有一定的优势,也证明了局部敏感哈希所产生的编码能够在精准率、平均响应时间等方面有进一步的提升空间。
其他文献
目的:胎儿完全型肺静脉异位引流是一组很严重的先心病,是新生儿死亡的主要原因之一。产前诊断胎儿完全型肺静脉异位引流对超声医师具有一定的难度。时间-空间关联成像技术是
我国北纬30°以北的河流在冬季都会结冰,建立在水中的桥梁不可避免的会受到水中结冰的影响甚至威胁桥梁安全,本文以北京北部永定河落坡岭水库上的落坡岭桥为研究对象,对落坡
动补式动词是汉语中一种重要的复合词,从结构上说,主要是“动+动/形”的形式,从语义上讲,动词与补语之间是一种补充说明的关系,补语成分说明动作行为的结果、趋向、状态等,或
现如今,人们对高能耗应用的先进储能技术有越来越迫切的需求,像电动汽车和智能电网存储系统,已经引起研究者们对传统锂离子化学新电池系统的不断探索。因此,可充电锂金属电池
视觉目标跟踪在机器视觉领域中作为一项前沿技术,是实现人工智能的重要组成部分,其主要涉及到图像处理、信号处理、模式识别等专业知识,且目前已广泛应用于安防监控、视觉检
随着互联网的普及与规模的持续增长,数据的刻画形式越来越复杂。传统的算法大多将数据展开成一维向量,再使用基于向量的算法对数据进行处理,这样不仅破坏了数据结构,也为后续
我国经济的快速发展,城市汽车日益增多,带来了一系列严重的交通问题。智能交通系统是改善交通问题的有效途径,车辆检测是智能交通系统中重要的研究课题。然而车辆检测受光照
大量实验结果表明波在含重油孔隙介质中的传播性质随温度改变有较大变化,温度对波传播性质的影响不能忽略。为了研究含重油孔隙介质中波传播性质随温度的变化,本文综合考虑了
在水资源匮乏,社会经济高速发展的大背景下,我国的水资源供需矛盾日益突出。我国北方缺水地区,修建的很多多孔拦河闸以及多孔蓄排兼用水闸,除在汛期过流量大时可能全部开闸放
随着网络的迅速普及,网络应用多样化趋势加快,大数据时代已经到来。数据的急剧增加使得推荐系统中的用户数和项目数也大大增加,相对来说可用的评分所占比例将越来越小,评分矩