基于位置敏感哈希的相似性搜索技术研究

被引量 : 0次 | 上传用户:voidemort
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
相似性搜索是计算机科学中的一个基础问题,被广泛应用在多个计算机领域,包括数据挖掘、机器学习、信号处理以及信息检索等等。最初人们通过查找查询对象的最近邻(Nearest Neighbor, NN)来解决相似性搜索问题,提出了系列在低维数据空间表现良好的分支界限算法。但是当数据的维度增加时,这类算法的时间效率会下降到接近线性查找的程度,也就是所谓的“维度灾害”。部分研究人员提出可以使用近似最近邻查询来解决相似性搜索问题,因为在大部分的应用场景下,使用近似结果一样可以很好地满足应用需求。位置敏感哈希(Locality Sensitive Hashing, LSH)是近似最近邻搜索算法中最流行的一种,它有坚实的理论依据并且在高维数据空间中表现优异。但是LSH也存在一些缺点:为了拥有较好的搜索效率,LSH算法所建立的索引需要大量的内存;此外,LSH算法的查询时间也存在进一步优化的空间。尽管一些科研工作者针对LSH的缺点提出了一些改进算法,但是这些改进算法也大多基于通用的LSH算法框架,而这个框架本身就存在一定局限性,而且这些算法在处理大规模数据时的性能依然有待提高。为了提出性能及适应性更好的相似性搜索算法,本文在LSH的基础上做了以下工作:1.分析了LSH解决相似性搜索问题的思路,指出了通用的LSH算法框架存在的缺陷:需要使用大量的哈希表来保证查询效率;对于距离查询点较远的点的过滤效果比较差;没有充分利用哈希函数的性质。2.提出了一种新的相似性搜索算法—基于冲突计数的位置敏感哈希(FBLSH)。 FBLSH充分利用了基于P稳定分布的LSH函数的特性,通过冲突次数统计的方法,减少了哈希表的数量,增强了算法过滤不满足查询条件的点的能力,从而降低了查询时间。本文从理论上证明了该算法能有效地解决相似性搜索问题并分析了算法的复杂度。论文的实验表明:与基于P稳定分布的LSH相比,FBLSH能同时提高时间和空间效率。3.为了弥补现有相似性搜索算法处理大规模数据能力的不足,本文提出了一种混合型索引结构—HKF树,它不仅继承了FBLSH低空间消耗的优点而且在大规模数据集上表现优异。HKF树使用层次化的k-means树作为上层结构,在每个叶子节点上建立FBLSH索引。本文从理论上证明了HKF树算法的有效性并分析了算法的复杂度。论文的实验表明HKF树在大规模数据集上的性能优于层次化的k-means树、FBLSH以及后验多探测LSH。
其他文献
目的:探讨糖尿病患者治疗过程中发生低血糖的原因,观察低血糖后血清超敏CRP水平的变化,为临床工作中糖尿病低血糖的预防提供一定的指导。资料与方法:1、研究对象:选择2009年12月
第一部分小白菊内酯对人膀胱癌5637细胞增殖和细胞周期的影响目的研究小白菊内酯(Parthenolide)在体外对人膀胱癌细胞系5637细胞增殖和细胞周期的影响及其可能机制。方法采用
科马克·麦卡锡是美国当代著名小说家之一,从1965年正式在文学界崭露头角开始,他已经出版了十部小说,获得过国家图书奖等一系列重大荣誉,受到评论界和读者的广泛关注,也奠定
输卵管作为两性配子的成熟与运送、精子活能、受精过程的场所,为早期胚胎的发育提供了最佳的微环境,这与输卵管所分泌的细胞因子(如TGF-α、TGF-β3、FGF-2、LIF和GM-CSF等)的
导游是旅游从业的一线人员,代表着旅游业的形象,关系着旅游业的良性发展。兼职导游是目前导游队伍中的主体,规模和数量都十分庞大。由于兼职导游与全职导游相比,存在着流动性
民俗钱币是古钱的一个分支,它是以钱形为主,多以金属铸造,主要以吉祥厌胜为目的使用的一种特殊钱形物。民俗钱币作为一种趋吉避凶的载体,在民间广为流传。它有着悠久的历史、
酸洗的清洁生产一直是钢铁行业追求的目标,其关键因素的研究更是学界热点。添加缓蚀剂是应对酸洗清洁生产要求最有效的技术手段之一,但热轧碳钢表面氧化层、腐蚀温度、酸洗液
后殖民翻译理论自上世纪末传入中国以来,一直受到广大翻译学者的热烈关注。他们试图以后殖民翻译理论来指导中国本土文学的翻译,并解决如何将中国文化向西方世界传播这一问题。
在过去的30多年中,旅游活动在世界范围内的稳步增长,标志着旅游已经成为本世纪最为显著的经济和社会现象之一。改革开放以来,中国旅游业发展迅速,已成长为中国第三产业中最具
轨检车是轨道线路检测中的一种科学有效的检测方式,正确运用轨检车检测数据对指导日常安全生产具有十分重要的作用。轨道不平顺质量指数—TQI是一项评价线路维修状态的先进技