OBF-Index:基于Ordinal Bloom Filter的分布式多维索引

来源 :云南大学 | 被引量 : 0次 | 上传用户:qq664374004
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据量的爆炸式增长,为了应对海量数据的处理需求,Google提出了MapReduce框架。Hadoop作为其开源实现,因其稳定性、可扩展性等诸多优点逐渐受到越来越多人的青睐。在传统关系型数据库中我们可以通过创建索引的方式来提高检索的效率,但Hadoop并没有原生支持索引结构来提高MapReduce的效率。实验室在之前的研究中,已经提出了一种基于BloomFilter的、轻量级的、多维索引结构BF-MapReduce。BF-MapReduce工作于Map过程之前,可以过滤掉不必要的输入分片,进而减少Mapper的数量来达到提高MapReduce整体效率的目的。但因为Bloom Filter空间高效的同时,随着数据的插入,会有越来越高的假阳率。在此基础上,设计了一种Bloom Filter的变种—Ordinal Bloom Filter,通过哈希函数的序号和相应的插入/查找算法,保证假阳率相对较小。本文将Ordinal Bloom Filter做为索引底层的存储结构,提出OBF-Index。与BF-MapReduce相比,本文重点研究索引结构与Hadoop的整合机制,详细设计并实现了有关索引构建、更新、使用和优化的多个服务。并且提出了索引环境Profile的概念,对索引工作环境、创建参数和期望性能等进行形式化描述。索引分析器以索引环境Profile为分析对象,构建机器学习模型,实现索引的自动化分析和优化。最后通过多组对比实验,比较OBF-Index与原始MapReduce、Hive、BF-MapReduce 的性能。实验结果表明 OBF-Index 保留了 BF-MapReduce 轻量级、高效率的特点,可在大规模数据集下,对MapReduce程序(尤其是检索程序)的性能有较大提升。同时因为索引环境Profile的灵活性,可为不同应用场景构建不同的、有效的索引,进而提升整个集群的利用率。
其他文献
清洁燃烧技术在工业上具有广泛的应用前景。本文通过实验及模拟仿真的手段,运用稀氧部分预混/富氧补燃(ODPP/OESC)燃烧技术,针对不同工作参数变化,分别研究了对冲及同轴火焰结
TEAD蛋白家族是一类转录因子,该家族成员与转录因子YAP蛋白、TAZ蛋白等都属于Hippo信号通路的下游关键组分。Hippo信号通路主要参与哺乳动物发育、器官大小控制。该通路的主
随着信息技术的发展,随之而来的是海量的数据,这些网络数据具有数据量大、数据类型丰富等特点,其中也包含了很多潜在的富有价值的信息,如何从这些数据中挖掘出潜在的未知的信
软件特征定位是软件演化活动得以顺利展开的前提条件,软件特征定位研究结果的评估方案决定软件演化的波及范围,好的特征定位方法能够提高软件演化的效率。按分析方式定位不同
数据新闻是全球媒体应对大数据时代的到来所做出的关键性改革。自2012年数据新闻诞生起,优秀的数据新闻作品和研究成果层出不穷。与传统新闻相比,数据新闻在技术的加持下具有数据驱动、客观严谨、表达生动等特点。但是,随着对数据新闻的热情和好奇逐渐消退,人们开始理智的审视数据新闻发展所面临的现状和问题:数据新闻的制作周期较长,对数据的处理能力要求高,数据可视化表达程度有限等都是制约数据新闻进一步发展关键因素
近年来海洋资源的开发与利用日益火热。由于水下环境与陆地环境存在差异,水下环境比陆地更加复杂未知,因此水下环境的勘探与开发存在一系列的技术问题。本论文基于双目视觉系统,对水下环境进行三维重建,研究水下环境信息,将水中信息通过图像采集并预处理,而后生成含有深度信息的视差图,从而进行三维重建。一般情况下,基于双目视觉的水下三维重建工作分为以下几个步骤:采集和获取水下图像、对双目相机进行标定、预处理所获取
目前,中国市场正从“采购新梯”逐步向“维保服务”的阶段转移,因服务流程的拖沓与混乱导致的企业资源浪费屡见不鲜,怎样提升产品与服务品质将成为众多企业面临的首要挑战。本文正是基于如此背景,以X电梯公司服务体系为研究对象,对其进行效率与创新的服务战略研究。本文在开篇介绍了X电梯公司的背景及目的,阐述了课题来源。随后在第二章中介绍了课题运用的相关理论和模型。在第三章中,从分析企业的外部环境入手,不同的角度
本文研究的对象是美国特斯拉公司,其处在内外部环境变化较快的高科技创新行业,其市场估值与其规划战略、相关的估值影响因子与倍数联系密切。第一章主要通过对类似特斯拉的高
目的对双歧杆菌在新生儿坏死性小肠结肠炎的应用的剂量进行相关的研究,为临床上双歧杆菌在此病上的应用提供一定的依据。方法选取符合要求的新生大鼠40个,将它们分为五个组,
碳纤维增强铝基复合材料具有高强度、高模量与轻量化的特点,因此被广泛应用于航天飞机、人造卫星、汽车、船舶等领域,但是在实际应用中,碳纤维与铝合金不管通过铆接还是粘接的方式连接,两种存在电位差的材料之间都会不可避免地产生接触,若遇到雨雪天气、潮湿气候或者海洋环境等,可能会产生电偶腐蚀。因此如何在提升碳纤维-铝复合材料力学性能的同时,提升材料的电偶腐蚀防护性能尤为重要。针对该问题,本研究在碳纤维/铝层状