云环境下流式数据预处理机制优化研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:wearetgd1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在云环境背景下,流式数据作为大数据的数据形态,已成为研究热点。传统的数据库不能满足对流式数据高效持久化,Hadoop作为MapReduce典型应用能够高效持久化流式数据,但是Hadoop在云环境下持久化流式数据存在可靠性降低以及集群性能降低的问题,所以要对其在云环境下持久化算法进行改进。Spark Streaming能够满足流式数据处理实时性要求。由于流式数据状态以及集群计算能力是动态变化的,为了保证数据处理效率,Spark Streaming集群参数需要与之相应变化。本文主要对流式数据预处理机制优化研究,主要做了以下三个方面工作。首先,针对云环境下HDFS持久化流式数据存在数据可靠性降低以及集群性能降低的问题,提出了基于HDFS动态副本分配技术的数据流持久化算法。该算法通过感知云环境下集群节点所在位置,并且通过相对位置概念来定义集群节点距离,以集群节点间距离指标与节点性能指标作为流式数据持久化条件,来保证持久化数据可靠性与集群数据处理性能的稳定。仿真结果表明物理服务器宕机时,该算法能够保证数据的不丢失。该算法与同类型算法在数据可靠性以及集群性能作了对比,实验表明在云环境中该算法在数据可靠性以及集群性能上优于同类型算法。其次,针对Spark Streaming集群参数设置不恰当,导致集群数据处理效率降低的问题,提出一种基于Spark动态块调整技术的流式数据处理算法,通过分析当前数据流负载信息,并在历史数据库表中查找与当前负载流相似且数据处理效率最高的任务属性作为当前参数,如果存储在数据库中的数据比较少,则通过DAAC(Dynamic adaptive adjustment control,动态自适应调整)控制器来对参数自动调整,从而达到流式数据处理实时性要求。将该算法与传统流式数据处理算法在任务处理实时性做了对比分析,结果表明该算法在数据处理性能方面具有较高的实时性。与此同时,将该算法在CPU使用率和内存使用率方面与同类型算法进行了对比分析,实验结果表明在同等负载状态以及算法收敛状态的情况下,该算法占用的CPU资源以及内存小于同类型算法。最后,针对设计的两种算法进行原型系统设计,分别展示了两种算法在流式数据持久化以及流式数据处理的表现,基于HDFS动态副本分配技术的数据流持久化算法能够在持久化流式数据时,保证数据可靠性提高以及集群性能的稳定。基于Spark动态块调整技术的流式数据处理算法能够满足冷链数据处理系统实时性需求。
其他文献
近几年来,空间计量经济学已从计量经济学中发展成为了一个独立的分支,并且在经济领域受到了越来越广泛的关注。当进行空间计量建模分析时,其中最为重要的一个步骤是构建空间权重矩阵,这也是空间计量经济学研究的一个热点问题。空间权重矩阵表示的是空间截面单元中个体区域或者经济变量之间的相互联系,是把理论的空间计量模型与实际生活联系在一起的重要桥梁,并且空间权重矩阵的合适与否会直接影响到模型的最终估计结果,所以构
装备制造业是制造业的重要组成部分,是发展我国综合国力的重要支柱。供应链物流作为装备制造业的关键要素,其协同水平直接影响着装备制造业能否快速响应市场需求的能力。为了确保装备制造业可持续高质量发展的竞争优势,急需快速实现供应链物流协同,提升供应链整体服务质量。供应链物流协同评价是物流协同管理的关键,能综合反映供应链节点间物流协同关系和供应链物流整体运行状况,优化供应链物流协同水平。装备制造业供应链物流
随着互联网技术的不断发展以及与之相关的服务规模的不断扩大,具备相同功能属性但不同非功能属性的候选服务不断涌现。这使得用户在构建服务应用的过程中需要面对海量的候选
无线传感器网络是一种高新技术,它可以实时采集并传送信息,在无线通信技术高速发展的今天,广泛应用于我们的生活中,小到智能家居、企业监管,大到深林防火,军事监测。但是由于
研究目的:本临床观察通过临床应用延黄消心痛胶囊[11治疗冠心病稳定型心绞痛,中医辨证分型为瘀血阻络证。结合临床症治,对该胶囊疗效进行临床观察,并对服用该胶囊前后心电图
随着信息技术的快速发展,图像处理技术已经被广泛地应用在诸多领域,使得图像处理理论与技术也得到了快速的发展。但是当硬件水平受到限制或者采集系统受到其它因素影响的时候
随着服务资源规模的飞速增长,服务发生失效后如何快速、准确地找到可替换服务已成为一个亟待解决的关键问题。现有的替换方法在寻找相似服务过程中,没有深入考虑执行序列中高
传统的环境监测方法主要以人工方式为主,即人工采集污染源样品并将其带回实验室进行分析,这种监测方式不仅时效性难以保证,污染源样品的采集工作更是一项艰辛的工作,部分待监
本文立足于对巴西伟大的作曲家安东尼奥·卡洛斯·乔宾的波萨诺瓦风格歌曲的创作技法进行研究,通过对他的波萨诺瓦歌曲创作技法进行深入的解析和归纳,总结出安东尼奥·卡洛斯
第一部分广西壮族人群骨关节结核患者血清中白细胞介素23表达水平检测目的:检测广西地区骨关节结核患者外周血中白细胞介素23的表达水平并探讨其临床意义。方法:收集右江民族