基于Flink流处理框架的多层次协同重配置策略研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:hongdou0219
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实时流数据是大数据时代的一种重要的数据组织形式,人们希望自适应流计算系统能够以低延迟和高吞吐量及时处理动态变化的实时数据流。流应用程序的有效运行时重配置被认为是保证流处理系统性能的关键之一,现有的许多工作都试图通过在某一种重配置机制的支持下,通过从某一个角度或对某一个层次进行的重配置来构建一个自适应的弹性流计算系统,如调整算子的并行度,调整任务部署以及调整流分区。本文认为,这些问题是紧密耦合的,因为他们都需要确定工作负载的分配,并在运行时迁移状态,因此单独优化这些问题可能会导致次优化,同时不考虑这些因素之间的协同可能会导致配置调整的抖动,这在某种程度上限制了系统性能的提升。针对上述问题,本文提出了基于Flink的多层次协同重配置策略(1)建立多层次流处理系统模型、数据流和流分区模型来解释多层次协同框架,并通过实验和理论分析确定了单一重配置算法在Flink流任务运行过程中面临的问题以及协同的必要性,之后对多层次协同的重配置问题进行了形式化描述与指标定义(2)提出了面向运行时重配置的多层次协同控制算法,通过平滑监控指标以及阈值控制,尽可能使用低开销的局部均衡策略对集群负载分布进行调整,实现多层次重配置策略对流处理系统性能的协同优化。(3)本文对资源管理问题和负载分配问题进行分析研究,提出了基于计算资源感知的流应用弹性算法、最小化通信开销的负载均衡任务调度算法,以及基于细粒度异步迁移的流分区算法。最大限度减小资源浪费,降低通信开销,并实现低迁移开销的负载均衡。本文在开源并行流处理引擎Apache Flink的基础上搭建了我们提出的多层次协同重配置框架(MCR-Flink)。并通过实验观察模拟负载和真实负载下多层次协同重配置策略对系统延迟、不均衡程度以及资源利用率的影响。实验结果表明本文提出的多层次协同重配置策略在不同场景下都由较好的适应性,同时能够有效减少应用高开销策略进行重配置对系统性能造成的影响。
其他文献
机器人技术在近些年来得到了不断的发展,在日常生活中的许多场景下已经存在机器人来替代人进行工作。导航和避障能力是智能化的移动机器人最重要的基本能力之一,在近年已经有研究出现,并开始在行人丰富的复杂环境探索。传统的机器人导航主要是用了SLAM技术以及控制规划方法。SLAM技术通过构建环境的地图,为机器人提供全局信息,在地图基础上调用规划方法生成机器人移动路径。这种方法对传感器精度以及构建地图的精度要求
学位
肺癌是具有高死亡率的恶性肿瘤之一,虽然目前人们对肺癌发生机制的了解和抗癌药物的开发有新的进展,但临床治疗效果仍不能令人满意。因此,有效抗肺癌药物的发现已经成为研究者所关心的热点。本课题选用的化合物RY-1-11是一种新型喜树碱衍生物,并且实验室前期研究结果显示RY-1-11通过影响Wnt/β-catenin信号通路显著抑制肺癌细胞的增殖和迁移,具有很好的抗肿瘤活性。同时,前期研究表明RY-1-11
学位
目的:代谢相关脂肪性肝病(Metabolic associated fatty liver disease,MAFLD)也称为非酒精性脂肪性肝病(Nonalcoholic fatty liver disease,NAFLD),是全球发病率最高的慢性肝病,全世界大约有四分之一的人深受该病困扰。MAFLD的预防和治疗主要依赖于饮食控制和运动干预,目前亟需开发新的和有效的治疗药物。AWRK6是基于东北林
学位
学位
淀粉样蛋白沉积疾病是由特定多肽或蛋白质聚集形成高度稳定的、具有细胞毒性的淀粉样蛋白纤维化沉淀所引起的。淀粉样肽β(Amyloidβ,Aβ)被认为是引起阿尔茨海默病(Alzheimer’s disease,AD)的致病蛋白。人胱抑素C(Human cystatin C,HCC)是一种广泛存在于人体的体液和组织液中的半胱氨酸蛋白酶抑制剂,可以抑制细胞外半胱氨酸蛋白酶活性。HCC可与可溶性的Aβ结合,研
学位
随着信息化技术的发展,在线课堂教育开始在信息化应用中崭露头角,但是在线教学中,学生课堂状态不佳和大规模翘课的现象已经对在线教学的发展产生阻碍,因此人们开始更加关注如何改善这种学生翘课的现象。但是,在线教学的相关任务的研究中,公开可使用的数据集和在公开数据集上进行的工作较少,数据集的问题阻碍着在线教育相关任务研究的发展。为了解决上述问题,我们构建了一个新的数据集,并提出了一种新的学生完课预测方法,通
学位
数字化浪潮推动互联网行业飞速发展,开发人员数量的增长速度远低于软件需求的增长速度。因此,研究人员和工业界将目光聚焦智能化编程,希望通过低代码的智能化编程极大地提高软件开发速度、效率和质量。现有的代码生成研究有两个重要的方法:模型驱动的代码生成方法和深度神经网络的代码生成方法。然而,前者需要复杂细致的建模才能得到功能上复杂的代码;后者难以生成结构性复杂的代码,这些问题限制着代码生成的发展。针对上述问
学位
随着开源的软件越来越多,在项目开发过程,为了提高开发效率以及程序性能,不可避免的需要引用开源的库和开源的代码块。对于只能获取二进制的项目,通过二进制代码相似性分析来判断项目中是否使用了库中的代码,前人已经提出了一些解决方案,但这些方案要么只能针对单架构的二进制代码进行相似性分析,要么通过特征进行跨平台的函数进行分析,并不能获得不同架构函数真正的语义表示。本文提出了一个基于对比学习的方案来解决该问题
学位
随着环境污染越来越严重,有机化合物成为环境污染的主要危害,尤其是随着工业污水、生活废水、运输泄漏等方式排放到水体中的有机化合物对水生生物造成了极大的负面影响。然而有机化合物急性毒性的研究领域,传统生物实验方法时间长、费用高、方法复杂,计算机辅助构建的二元分类模型虽可对毒性进行划分,但无法准确对毒性进一步划分。多元分类模型不仅可以快速准确地对有机化合物水生生物急性毒性进行,还可以进一步的按照各个国家
学位
图像超分辨率是计算机底层视觉和图像处理领域的一项基础任务。因为低分辨率图像和高分辨率图像构成一个一对多的映射,所以图像超分辨率任务本质上是一个不适定问题。近年来,借助深度卷积神经网络的强大表示能力,基于深度学习的图像超分辨率方法取得了巨大的突破,这些深度学习的方法主要通过不断加深或加宽网络以获得更好的性能,其参数量不可避免地成倍增加。然而,在实际应用中,设备的内存和算力是有限的,难以支持大型网络的
学位