【摘 要】
:
随着大数据时代的到来,信息数据急剧膨胀,Hadoop和Spark大数据分析平台提供了一种分而治之的解决方案来处理大量的实时数据。然而,这种用于实时数据处理的方案的关键问题之一
论文部分内容阅读
随着大数据时代的到来,信息数据急剧膨胀,Hadoop和Spark大数据分析平台提供了一种分而治之的解决方案来处理大量的实时数据。然而,这种用于实时数据处理的方案的关键问题之一是数据倾斜,这一问题对Hadoop和Spark大数据分析平台的性能造成了严重影响。目前解决数据倾斜问题大部分都是基于Hadoop平台的研究,而对于Spark的数据倾斜问题研究相对较少。在Spark中,当数据分布不均匀时,默认的Spark分区算法在执行Shuffle操作后就会出现数据倾斜现象,而现有的解决数据倾斜问题的方法是将重载的任务分布到额外拆分或者合并的分区上,然而这些额外的操作反过来又阻碍了系统的性能。因此,本文以Spark中的数据倾斜问题为研究对象,重点研究如何通过分区负载均衡来减少应用程序的总完工时间,提出一种基于改进蓄水池抽样算法的负载均衡机制和一种基于线性回归分区预测的负载均衡机制。本文主要工作如下:(1)为解决Spark计算框架下的数据倾斜问题,提出了一种基于改进蓄水池抽样算法的负载均衡机制:SP-IRS(Spark load balancing mechanism based on Improved Reservoir Sampling algorithm)。与现存的机制相比,该算法在传统蓄水池抽样算法中增加了一个变量,通过其权重用来预测Reduce分区大小。为了充分利用集群资源,利用数据倾斜检测模型将数据分类为倾斜数据和非倾斜数据,根据预测生成的矩阵,将倾斜数据均衡分配到各个分区中去。该机制能够使Spark负载更均衡。(2)为进一步优化应用程序总完工时间,提出了一种基于线性回归分区预测的负载均衡机制:SP-LRP(Spark load balancing mechanism based on Linear Regression Partition)。该机制利用线性回归预测算法创建Reduce分区预测模型,在该机制中,与现存机制相比,没有额外抽样操作,因此能够减少整个应用程序完成时间。具体框架为,首先分区跟踪器利用心跳机制将分析操作信息进行统计;其次操作统计信息被发送到分区大小预测器,该预测器基于线性回归算法创建预测模型;预测分区大小(每个分区)后,使用数据倾斜检测模型识别倾斜分区;最后资源分配器基于识别的正常分区大小创建资源需求。
其他文献
信息技术的发展对学习者获取信息的途径和学习偏好产生影响,如何在网络时代背景下发展学生的核心素养成为重要议题。社会认知双联通教学模式(social-and cognitive connected
本文将传统的微电子片上制备工艺和纳米技术结合,在柔性聚合物衬底上合成横向桥接的ZnO纳米线,制备出大面阵、高均匀性和电学稳定性的柔性紫外焦平面探测器阵列。主要的创新性结果如下:1.在普通光滑的聚酰亚胺(PI)衬底和具有特殊纹理结构的PI衬底上制备基于横向ZnO NW的紫外探测器,对比实验发现普通光滑PI衬底上的传感器在器件制备过程中由于温度、湿度等因素引起残余应力而出现裂缝。这些裂缝较短并随机分布
随着大数据和云计算的飞速发展,传统网络架构日渐僵化,数据平面和控制平面的紧耦合设计导致在网络设备中新增一个功能需要一个漫长的周期。为了改善当前TCP/IP网络架构,软件定义网络(SDN)应用而生。得益于大容量、远距离、低成本等优点,光网络已取代传统传输网络,被广泛应用于现网之中。软件定义光网络(SDON)将光传输网络集成在SDN架构内,以利用光传输的优点。运营商可根据自身业务要求对网络的架构和功能
近年来,由于传感器具有高灵敏性、高选择性、操作简便等优点在众多检测方法中脱颖而出,成为研究的重点。而传感器在食品检测、环境监测、生物分子荧光成像、医疗等领域有着潜
高光谱遥感技术通过数百个光谱窄波段实现地面场景成像,具有较高的光谱分辨率,波段连续且地物识别能力较强。在地质绘图和勘探、大气或植被生态监测、产品质检、精细农业、城
人工神经网络是通过模拟大脑神经系统的组织及机理,进行信息处理的智能模型。得益于其强大的自主学习能力,人工神经网络能够在很大程度上解放人们的劳动力,因此得到大家广泛
酚类化合物(phenolic compounds)是指芳香烃中苯环上的氢原子被羟基取代所生成的化合物,广泛应用于冶金、机械制造、石油化工、化学有机合成工业、塑料、医药、农药等领域。由
随着半导体工艺的快速发展以及技术水平的不断提高,单个芯片上可以集成越来越多的IP核,片上系统(System on Chip,SoC)处理器结构逐渐朝着多核化和异构化的方向发展,基于总线结构的片上系统产生的问题越来越明显。为了更好地满足应用需求、提升系统性能,片上网络(Network on Chip,NoC)应运而生。片上网络是一种新型的片上系统通信架构,借鉴了计算机网络的思想,主要采用了数据路由、
肌电控制假肢通过解码截肢患者残肢的肌电信号,可以实现截肢患者自主控制的目的,但是在实际中,截肢患者使用肌电假肢的比例仍然较低,其中部分原因在于肌电控制的方式不够自然
文字是重要的信息传递载体,能表达高级语义信息,场景文本作为重要的表现形式在生活中大量出现。近年来,在学术界和工业界,场景文本检测已成为理论研究和应用的热点。场景文本