基于位置敏感哈希的相似性搜索技术研究

被引量 : 0次 | 上传用户：voidemort

【摘要】

：

相似性搜索是计算机科学中的一个基础问题,被广泛应用在多个计算机领域,包括数据挖掘、机器学习、信号处理以及信息检索等等。最初人们通过查找查询对象的最近邻(Nearest Nei

【作者】

：

凌康

【发表日期】

：

2012年期

【关键词】

：

相似性搜索位置敏感哈希高维索引 k-means聚类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

相似性搜索是计算机科学中的一个基础问题,被广泛应用在多个计算机领域,包括数据挖掘、机器学习、信号处理以及信息检索等等。最初人们通过查找查询对象的最近邻(Nearest Neighbor, NN)来解决相似性搜索问题,提出了系列在低维数据空间表现良好的分支界限算法。但是当数据的维度增加时,这类算法的时间效率会下降到接近线性查找的程度,也就是所谓的“维度灾害”。部分研究人员提出可以使用近似最近邻查询来解决相似性搜索问题,因为在大部分的应用场景下,使用近似结果一样可以很好地满足应用需求。位置敏感哈希(Locality Sensitive Hashing, LSH)是近似最近邻搜索算法中最流行的一种,它有坚实的理论依据并且在高维数据空间中表现优异。但是LSH也存在一些缺点：为了拥有较好的搜索效率,LSH算法所建立的索引需要大量的内存；此外,LSH算法的查询时间也存在进一步优化的空间。尽管一些科研工作者针对LSH的缺点提出了一些改进算法,但是这些改进算法也大多基于通用的LSH算法框架,而这个框架本身就存在一定局限性,而且这些算法在处理大规模数据时的性能依然有待提高。为了提出性能及适应性更好的相似性搜索算法,本文在LSH的基础上做了以下工作：1.分析了LSH解决相似性搜索问题的思路,指出了通用的LSH算法框架存在的缺陷：需要使用大量的哈希表来保证查询效率；对于距离查询点较远的点的过滤效果比较差；没有充分利用哈希函数的性质。2.提出了一种新的相似性搜索算法—基于冲突计数的位置敏感哈希(FBLSH)。 FBLSH充分利用了基于P稳定分布的LSH函数的特性,通过冲突次数统计的方法,减少了哈希表的数量,增强了算法过滤不满足查询条件的点的能力,从而降低了查询时间。本文从理论上证明了该算法能有效地解决相似性搜索问题并分析了算法的复杂度。论文的实验表明：与基于P稳定分布的LSH相比,FBLSH能同时提高时间和空间效率。3.为了弥补现有相似性搜索算法处理大规模数据能力的不足,本文提出了一种混合型索引结构—HKF树,它不仅继承了FBLSH低空间消耗的优点而且在大规模数据集上表现优异。HKF树使用层次化的k-means树作为上层结构,在每个叶子节点上建立FBLSH索引。本文从理论上证明了HKF树算法的有效性并分析了算法的复杂度。论文的实验表明HKF树在大规模数据集上的性能优于层次化的k-means树、FBLSH以及后验多探测LSH。

其他文献

糖尿病患者治疗期间低血糖的原因分析及低血糖后CRP水平观察

目的:探讨糖尿病患者治疗过程中发生低血糖的原因，观察低血糖后血清超敏CRP水平的变化，为临床工作中糖尿病低血糖的预防提供一定的指导。资料与方法：1、研究对象：选择2009年12月

学位

糖尿病低血糖血糖波动危险因素超敏CRP

小白菊内酯对人膀胱癌5637细胞的体外抑制及其机制的研究

第一部分小白菊内酯对人膀胱癌5637细胞增殖和细胞周期的影响目的研究小白菊内酯(Parthenolide)在体外对人膀胱癌细胞系5637细胞增殖和细胞周期的影响及其可能机制。方法采用

学位

小白菊内酯膀胱癌细胞周期凋亡侵袭

文学伦理学批评视角下科马克·麦卡锡《路》中的道德自我重塑

科马克·麦卡锡是美国当代著名小说家之一,从1965年正式在文学界崭露头角开始,他已经出版了十部小说,获得过国家图书奖等一系列重大荣誉,受到评论界和读者的广泛关注,也奠定

学位

科马克·麦卡锡《路》文学伦理学批评道德自我人性

前列腺素F2α受体激动剂Fluprostenol对奶牛输卵管上皮细胞合成分泌细胞因子TGF-α、TGF-β3、FGF-2、LIF和GM-CSF的mRNA表达影响的研究

输卵管作为两性配子的成熟与运送、精子活能、受精过程的场所,为早期胚胎的发育提供了最佳的微环境,这与输卵管所分泌的细胞因子（如TGF-α、TGF-β3、FGF-2、LIF和GM-CSF等）的

会议

fluprostenol奶牛输卵管上皮细胞TGF-αTGF-β3FGF-2LIFGM-CSF

旅行社兼职导游管理研究

导游是旅游从业的一线人员,代表着旅游业的形象,关系着旅游业的良性发展。兼职导游是目前导游队伍中的主体,规模和数量都十分庞大。由于兼职导游与全职导游相比,存在着流动性

学位

兼职导游旅行社人力资源

古代民俗钱币文化研究

民俗钱币是古钱的一个分支,它是以钱形为主,多以金属铸造,主要以吉祥厌胜为目的使用的一种特殊钱形物。民俗钱币作为一种趋吉避凶的载体,在民间广为流传。它有着悠久的历史、

学位

民俗钱币文化内涵民间习俗

热轧碳钢酸洗过程清洁生产关键因素的研究

酸洗的清洁生产一直是钢铁行业追求的目标,其关键因素的研究更是学界热点。添加缓蚀剂是应对酸洗清洁生产要求最有效的技术手段之一,但热轧碳钢表面氧化层、腐蚀温度、酸洗液

学位

清洁生产酸洗缓蚀氧化层聚环氧琥珀酸

后殖民翻译理论对中国传统文学英译的适用性分析：《长恨歌》个案研究

后殖民翻译理论自上世纪末传入中国以来，一直受到广大翻译学者的热烈关注。他们试图以后殖民翻译理论来指导中国本土文学的翻译，并解决如何将中国文化向西方世界传播这一问题。

学位

长恨歌后殖民翻译理论杂合异化食人主义

沈阳市旅游发展战略研究

在过去的30多年中,旅游活动在世界范围内的稳步增长,标志着旅游已经成为本世纪最为显著的经济和社会现象之一。改革开放以来,中国旅游业发展迅速,已成长为中国第三产业中最具

学位

发展战略旅游发展战略旅游业实施方案

TQI值及波形图分析在线路维修中的应用

轨检车是轨道线路检测中的一种科学有效的检测方式,正确运用轨检车检测数据对指导日常安全生产具有十分重要的作用。轨道不平顺质量指数—TQI是一项评价线路维修状态的先进技

期刊

TQI值波形图轨检车状态维修

基于位置敏感哈希的相似性搜索技术研究

其他学术论文