一种基于偏移量的布隆过滤器算法

来源 :南京大学 | 被引量 : 0次 | 上传用户：lhnyzz520

【摘要】

：

随着计算机技术的发展,通信时用到的数据集合的尺寸在逐渐增大,涉及到的应用数量也在逐步增加,人们希望能够使用一种更紧凑的数据结构处理海量数据集。在计算机系统和应用中,

【作者】

：

李姿

【机构】

：

南京大学

【出处】

：

南京大学

【发表日期】

：

2017年期

【关键词】

：

布隆过滤器偏移量集合算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着计算机技术的发展,通信时用到的数据集合的尺寸在逐渐增大,涉及到的应用数量也在逐步增加,人们希望能够使用一种更紧凑的数据结构处理海量数据集。在计算机系统和应用中,为人熟知的集合操作正是一种最基础的操作,处理数据集的效率与集合查询的效率紧密相关。在本文中关注的正是如何高效处理集合查询的问题。在集合查询问题中,效率主要集中在三个方面:内存存取次数,查询时间,正确率。传统处理海量数据集的经典方法之一是布隆过滤器(Bloom Filter)。本文通过对布隆过滤器进行修改,设计并提出了一种新的改进的布隆过滤器ShBF(ShiftingBloomFilter),该算法既可用于存储数据,也可用来进行集合查询。其优势是进行集合查询时,既能够比传统的布隆过滤器的内存使用量和操作时间更少,又不会导致错误率明显上升。为了展示算法的查询效率,本文一共选择了三种常见的集合查询:元素查询(membership queries),联合查询(association queries)和重复元素查询(multiplicity queries)。ShBF的创新点在于使用偏移量对算法结构进行优化,使得新的算法能够充分利用每次存取得到的数据,以记录更多的信息。因为使用布隆过滤器进行插入与查询时,每次存取的数据数量至少为一个机器字,而实际需要的只是其中一个二进制位。本文中将其余的比特位称为偏移量,ShBF通过使用集合元素自带的偏移量,将更多的信息编码写入其中,从而达到对布隆过滤器进行优化的目的。ShBF和布隆过滤器的主要区别在于如何存储附加信息,所谓附加信息是指元素的存在信息以外的信息。在布隆过滤器中需要应用程序分配更多的内存才能存储更多信息,而ShBF会将这些信息存储到元素的偏移量中。本文针对三种不同的集合操作,提供了三种ShBF的设计方案,并选择了经典的布隆过滤器改进算法进行对比。在测试阶段使用模拟产生的一系列数据及真实的网络数据进行评估,在内存使用,计算量,以及正确率多个方面进行评估,验证ShBF的性能优势。

其他文献

空间元数据分布式检索协议——SRW的实现技术研究

随着信息技术的飞速发展，作为数字地球的重要支撑技术之一的元数据技术显得越来越重要。空间元数据描述了地理信息中空间数据集的内容、质量、表示方式、空间参考、管理方式以

学位

空间元数据分布式检索数字地球SRW协议WebService技术CQL语法

Multi-Tiers构架系统效率研究

随着计算机和网络技术的发展，越来越多的功能被实现。C/S,B/S结构的系统目前虽然已经非常成熟，但在可维护性、扩展性和效率的提高上已经难已满足发展的需要，而multi-tiers构架系

学位

Multi-ties系统数据引擎中间件分布式系统负载均衡人事管理系统

基于GIS与OAS集成实现企业内部信息管理系统的研究

GIS是GeographicInformationSystem(地理信息系统)的简称，是为特定应用目标建立的空间信息系统，是在计算机硬件、软件及网络支持下，对有关空间数据进行预处理、输入、存贮、查询

学位

地理信息系统办公自动化系统集成系统

Web服务自动测试工具的设计与实现

本文围绕Web服务自动测试技术展开了研究。首先对现有的Web服务测试技术进行分析，结合Web服务自动化测试的需求，提出提高Web服务测试自动化程度需要解决的问题：一，需要以较低的代

学位

网络服务自动测试工具测试数据生成合约变异

基于TUXEDO中间件的邮政报刊零售系统的设计与实现

在现今局域网、广域网的系统中，大量使用中间件成为主流趋势之一，随之而来的各种基于中间件的开发也渐渐的热起来。中间件是一种独立的系统软件或服务程序。中间件位于客户机/

学位

邮政报刊

一个实时交互式报警关联系统的设计与实现

随着互联网络的迅速发展，网络攻击技术也变得复杂而又巧妙，网络攻击事件的数量每年都在大幅度上升。入侵检测技术是现代网络安全模型中的关键环节，然而入侵检测技术面临着网络复

学位

入侵检测关联分析聚合聚类网络安全

DNA序列的Motif识别随机算法

Motif是在多个序列中(近似)出现的一个短串。DNA序列的motif识别在生物学研究中有很多应用。本文提出一种用于motif识别的随机算法，并且对其进行性能改进，最后形成一个可用的软

学位

DNA序列motif识别随机算法EM算法

基于公钥模式的数字图像信息隐藏技术

随着计算机及网络应用的普及,基于网络的电子业务种类的增加和业务量的扩大,安全成为亟待解决的问题。信息隐藏技术是目前通过保密通信手段实现基于网络的电子事务安全性、知

学位

信息隐藏加密算法保密通信图像处理网络模型

一种基于规约的构件测试自动化策略及支持平台的实现

近年来，高效地测试自动化越来越突显其在软件测试过程中的重要性。测试自动化能够有效地降低测试开销和提高测试复用的水平，还可以弥补手工测试中测试充分度低、测试用例数量不

学位

测试自动化测试规约测试数据生成测试程序生成软件测试构件信息

基于数学形态学的遥感图像边缘检测

在实际的图像处理中，图像的边缘是图像的基本特征之一，它包含了图像的位置、轮廓等信息，广泛应用于图像特征描述、图像分割、图像增强、模式识别、图像压缩等图像的处理中，以便对

学位

遥感图像边缘检测数学形态学

一种基于偏移量的布隆过滤器算法

其他学术论文