多路数据流θ连接的流过滤问题研究

来源 :中国科学院大学(中国科学院深圳先进技术研究院) | 被引量 : 0次 | 上传用户：lw8307817

【摘要】

：

数据流是一组大量、快速、顺序、连续到达的数据集合。近年来,电子商务、网络监控、广告系统等用于数据流处理的应用越来越引起重视。作为基本操作之一,连接在流的处理过程中

【作者】

：

胡紫玥

【出处】

：

中国科学院大学(中国科学院深圳先进技术研究院)

【发表日期】

：

2020年01期

【关键词】

：

连接多路数据流数据流布谷鸟过滤器过滤器

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

数据流是一组大量、快速、顺序、连续到达的数据集合。近年来,电子商务、网络监控、广告系统等用于数据流处理的应用越来越引起重视。作为基本操作之一,连接在流的处理过程中起着非常重要的作用。是连接条件,包括<,≤,≥,>,如果为“=”,则称为等值连接。其目的在于找出不同数据集中满足连接条件的特定对象。针对海量流式数据分析处理中的多路数据流连接处理,本论文从等值连接和非等值连接两个模块分别进行了研究,并且分别提出了高效的解决办法。在非等值连接方面,本文提出了FastThetaJoin,这是一种多个数据流中用于连接操作的优化技术。连接作为许多数据分析任务中经常使用的基本查询操作,在实际应用中,对多路数据流进行连接操作是非常困难的。由于多个操作组件之间的数据移动,因此涉及巨大的通讯和计算成本,使其难以在分布式环境中有效实施。与之前的研究方法一样,FastThetaJion也会尝试最小化连接的数量,但是在制定分区策略,删除不必要的数据和执行笛卡尔积时,FastThetaJion提出了与其他方法不同的分段过滤策略。通过这些策略,FastThetaJoin不仅可以有效地减少连接的操作数量而且还可以有效提高其在分布式环境中的运行效率。本文在Spark Streaming框架中实现了FastThetaJoin,实验结果表明,与现有解决方案相比,本文提出的方法可以减少参与连接的数据量,加快连接处理速度,进而提高连接的性能,和现有的算法相比可以提升30%以上的速度。此外,优化的效果与数据流的特性有关。数据特征差距越大,优化效果越明显。在等值连接方面,本文提出了一个新的面向流的过滤器,名为多重布谷鸟过滤器(MCF)。这是一种基于经典布谷鸟过滤器的多重布谷鸟过滤器,可用于判断在特定时间段内所有数据流中是否存在某一相同元素。该方法将多个数据集的成员资格查询分解为多个操作,并将查询置于流环境中,每个数据流对应一个过滤器。实验结果表明,随着数据流数量的增加,插入和查询操作的时间也会增加。MCF的查询时间也随着滑动窗口的减小和窗口数量的增加而逐渐增加。

其他文献

振冲碎石桩在汕头旧城区松散砂基处理中的应用

拟建的 7～ 8层住宅楼位于汕头市旧城区 ,场地上部为松散～稍密状砂性土 ,且具有一定厚度时 ,采用振冲碎石桩挤密改良原砂土层的工程力学性质 ,既提高地基土的承载力 ,又提高土层

期刊

松散砂基振冲碎石桩地基处理

快速高精度转速测量仪的研制

文中较详细地介绍了快速高精度转速测量仪的工作原理，并对软、硬件设计的主要环节进行了叙述。该转速测量仪通过对相邻几个转速脉冲信号的宽度进行测量，并采用在线修正的方法，实

期刊

在线修正转速测量仪研制发电机组Rotational SpeedMeasuringCorrecting On Line

Encourage to Boost Imports

<正>It’s learned that "adjusting structure and promoting balance" would be the tone for China’s foreign trade work in 2010.However, there’re some changes in

期刊

进口非关税贸易壁垒对外经贸

爱克发推出新一代报业CTP—Polaris X

爱克发推出用于报业制版的新一代直接制版机-Polaris X.全新的Polaris X功能更进一步:如每小时350张的制版速度、紫激光技术、崭新的定位系统、三个不同印版尺寸的供版盒及自

期刊

爱克发公司报纸印刷直接制版机新产品PolarisX

NASICON固体电解质气体传感器的研究进展

采用高温固相法、溶胶一凝胶法制备了NASICON固体电解质材料，并利用XRD、IR、Raman、SEM等现代分析手段对NASICON材料进行了分析表征，优选出NASICON材料制备的工艺条件。对制备

期刊

NASICON固体电解质气体传感器NASICON solid electrolyte gas sensor

数码时代出版社与印刷厂商的发展模式

随着网络技术的发展与印刷技术的突飞猛进,现代出版与印刷面临着更多的机遇与挑战.CTP技术与网络技术的结合,为新时代的出版与印刷提供了全面解决方案的可能.PDF、JDF、数码

期刊

网络技术发展模式出版社印刷厂商

森林防火视频监控管理系统服务器端研建

随着计算机网络技术和AI技术的不断发展,森林防火视频监控管理系统正朝着智能化的方向快速发展,这对于在森林防火视频监控管理系统中处于重要位置的服务器端系统提出了更高的

学位

森林防火视频数据管理瓦片地图扑火预案SSM框架

HP has big plans for China

期刊

中国HP服务中心惠普公司市场投资宏

天津小农户与大市场有效衔接路径研究

“大国小农”是我国的基本国情农情,小农户是我国农业的主要组织形式和主要经营方式,小农户的发展影响着我国乡村振兴战略的实施和全面建成小康社会的实现。天津作为我国北方经济中心和环渤海地区的核心,城镇化率较高,但仍拥有大部分小农户,且随着工业化、城市化的推进,大量农民劳动力向城市和非农产业转移,使小农户呈现兼业化和老龄化,小农户生产规模化、集约化程度低的状况依然存在,导致小农户难以融入大市场,增收困难,

学位

小农户大市场新型农业经营主体绿色农产品

China＇s largest nuclear plant gets under way

<正>China,Iran sign oilfield development deal Iran and China signed a US＄1.76 billion deal in Tehran on January 14 for the initial development of Iran's Nort

期刊

投资金融银行中国

多路数据流θ连接的流过滤问题研究

其他学术论文