基于海明距离的相似查找索引算法研究

来源 :北京交通大学 | 被引量 : 2次 | 上传用户:taomeizi2006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
相似查找问题在信息检索、数据库应用和模式识别等领域都是一个重要的应用。随着网络信息不断增长,数据表现的形式也更加丰富,如何在海量的数据中快速有效地检索出目标信息一直是信息检索领域一项重要研究课题。如何建立高效便捷的索引,在一定时间内返回准确全面的查询结果,是一项具有挑战的热点问题与难点问题。本文主要研究海明空间下的相似查找问题,给定一个数据集D和查询串Q,在尽可能少的时间内返回数据集D中与Q相似的所有字符串,称该问题为相似词典查询问题。相似词典查询问题可以划分为两个阶段来解决:1)Search阶段:利用建好的索引查找出可能相似的目标候选集;2)Check阶段:在这些候选集上运用某种策略进行快速检查,筛选出真正符合查找条件的结果。本文分别在Search阶段和Check阶段进行研究,主要工作内容如下:(1)首先使用Simhash方法完成数据的预处理操作,经过提取、加权、合并和降维等操作将高维数据处理成容易进行相似度比较的Simhash指纹(二进制串)形式。(2)提出基于海明空间的多索引Search算法,主要用于筛选数据集中可能的相似结果候选集。结合基于海明空间的多索引算法的分块建索引的思想,先把二进制指纹化成b个block块,改进的多索引Search算法根据参数k与b之间的关系将多个block块结合在一起建立索引,获得了更好的查询效率。(3)提出两种基于中心点的Check算法,将聚类的思想应用到候选集的筛选策略上,应用于高效筛选Search阶段产生的候选集。基于中心点的贪心Check算法,通过贪心算法选出中心点P,并且每一个中心点P对应一个集群。并将两个基于中心点的Check算法与线性扫描法进行对比实验,得出基于中心点的贪心Check算法具有更好的查询效率。
其他文献
故障检修作为工程机械正常使用、安全使用的有效前提,其不仅应该影响到工程机械的安全性,也影响着施工单位的施工进度和我国人们生活的正常性。可见,对工程机械的故障检测及维修
近几年,随着我国桩工机械设备的不断升级,许多工程为更好的保证工程质量,尽量减少方桩接头,以此便出现了超长方桩在施工现场预制,针对施工现场钢筋混凝土方桩(以下简称:方桩)预制易出
在建筑工程的施工过程中,工程监理是一项十分重要的建筑工序,不仅关系着建筑工程的施工安全和施工水平,更是影响着建筑工程项目的经济收益和社会效益。但是,受到种种因素的影
社会经济的进步带动了建筑业的发展。作为建筑工程中的基础环节,桩基工程的施工质量关系到整体建筑的综合效益,是人们广泛重视的一项工程。对桩基工程的施工质量及时分析和处
信息时代的到来、全球经济一体化的进一步深化和信息量的迅速增长对传统建筑市场也提出了新的要求,使得大型施工总承包企业之间的竞争异常激烈,迫使大型建筑施工总承包企业必
怪异文学顶峰——《聊斋志异》,以卓绝的幻化艺术,将数百生气活泼的花妖鬼狐形象展现在人们面前,给人以新异美,真切美,厚蕴美。
本文主要从物理理论的角度对脚扣爬电杆时的受力情况进行了分析。
清水混凝土是建筑现代主义的一种表现手法,因其极具装饰效果也称装饰混凝土,在混凝土浇筑后,不再有任何涂装、贴瓷砖、贴石材等,意在表现混凝土的素颜。介绍了清水混凝土的优
以《民俗研究》刊发的论文为主要考察对象,可以探索新时期民间信仰研究的基本走向,总结民俗学在理论研究方面的贡献以及在方法论上的突破。民俗学的研究传统是以民俗事象为中