面向低延迟的在线流处理作业调度算法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:Melissachen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,实时处理大规模数据流成为亟待解决的重要问题。为了满足实时性的要求并确保处理数据流的稳定性,很多企业用户采用了各种分布式流处理系统架构或平台,它们提供的基本功能是将流处理应用程序作业任务分配给当前可用的物理资源并在这些资源之间路由数据。对于很多分布式流处理框架来说,如何将应用程序中的任务调度到物理集群上是主要解决的问题之一。目前分布式流处理系统关于延迟约束的调度算法很多关注的是计算密集型的场景,对于系统延迟考虑了任务所需计算资源以及任务的处理时间等因素,往往忽视了任务间传输时间对流处理系统延迟造成的影响。而且,当前许多流处理系统的默认调度策略缺少对任务资源需求以及物理集群资源可用性等因素的感知,在集群资源的利用率上效果不佳。因此,对流处理系统而言,如何在满足实时性和资源要求的情况下,最小化使用物理集群资源是一个亟需解决的问题。此外,在流处理系统运行的过程中,数据流达到速率是在动态变化的,当速率波动较大时,应用程序中任务可能会出现过载的现象,导致系统延迟增加,违背了实时性的要求,如何适应数据速率波动,调整系统的计算能力以满足延迟约束也是本文的主要问题。在本文中,为了满足流处理系统的实时性要求,首先,本文将任务调度问题建模成最小化使用资源的优化问题,该问题中考虑了集群中计算资源可用性、任务的工作负载、任务节点的特征以及任务之间的传输延迟等因素。针对该优化问题,本文提出了两种启发式的流处理调度算法:AHA算法和PHA算法。AHA调度算法从流处理应用程序的拓扑结构特点出发,致力于减少流处理系统中的传输延迟。PHA调度算法分析了关键路径的延迟对整体延迟的影响,通过调整关键路径的延迟保证系统的实时性要求。而且在模拟实验中,本文采用了三种类型的流拓扑结构,并通过对比实验来验证两种启发式算法可行性及准确性。从实验结果发现,本文提出的启发式调度算法能够保证流处理作业实时性,同时使用较少集群资源。其次,针对流处理运行过程中,数据达到速率波动特征,本文通过使用排队论方法将数据在应用程序算子任务内部等待时间与任务处理时间形式化为延迟预测模型,在此基础上,根据延迟预测模型凸函数的性质,预测算子任务的最少并行数量。并且,本文将动态速率变化引起的调度问题建模成最小化优化问题,提出并设计了最少算子并行任务数的预测算法以及动态资源调度算法DST。其中,DST调度算法的主要目标是在满足用户延迟约束的条件下,最小化使用集群处理器内核资源。除此以外,该算法能够在流处理应用程序达到临界触发条件或者满足时间调度周期时触发执行调度,而且在数据流平均到达速率较低的时,为了提高资源的使用效率对资源进行整合。最后通过模拟实验的方式对本文提出的动态资源调度算法DST进行测试与评估,在实验中,本文采用了真实数据集Memetracker及模拟数据集两种数据,并利用两种算法进行了对比测试。通过实验结果分析,发现DST调度算法能够较好地适应数据流到达速率的变化,在满足延迟约束以及提高资源利用率的方面效果显著。
其他文献
多目标跟踪是计算机视觉领域的一个研究热点,其在智能监控领域具有重要意义,通过计算机对感兴趣的目标进行检测和跟踪来代替传统的人工方式可以极大程度减轻人力资源消耗。最初的多目标跟踪是基于单视角环境进行研究的,迄今为止已有大量优秀的单视角多目标跟踪算法,但它们仍无法较好地解决遮挡问题,利用多个视角的冗余互补信息通过数据融合为解决遮挡问题提供了可能。与单视角多目标跟踪相比,多视角多目标跟踪不仅要解决时序上
能够检测有毒有害气体的全固态气体传感器在大气环境监测、微环境监控以及医疗诊断等领域具有良好的应用前景。基于固体电解质NASICON的气体传感器因其低检测下限、低功耗以及快速的响应恢复速度等特点而备受研究人员青睐。本文设计制备钙钛矿化合物材料作为敏感电极,进而开发出面向大气环境监测、室内微环境监控以及医疗诊断等多领域应用的NASICON基混成电位型二氧化硫、三乙胺以及丙酮传感器。本文主要内容如下:(
无线网络具有自主组网,多跳路由的特点,网络中的设备通过消息传递的方式进行通信,这将会产生大量冗余数据,可能引发网络风暴。为了增强网络的性能,提高资源利用率,需要对无线网络采取有效的拓扑控制,连通支配集作为无线网络实现拓扑控制的重要方式之一,能够简化网络路由表,节省能量,具有高效性、便捷性等优点,吸引了国内外众多研究者的关注。随着无线网络应用领域的不断扩展,对连通支配集的研究提出了更进一步的要求。本
近年来,通过虚拟现实技术还原虚拟场景和实现交互的研究越来越多,因此关于基于虚拟现实的文物复原方面的研究也逐渐成为热点。传统的文物碎片数字化展示多为静态的图像、模型,其沉浸感和交互性还不足。本文关于在文物虚拟挖掘这一交互式模拟中,针对探铲和泥土坑基的三维模型之间的交互性进行分析,以及土壤粒子的运动状态进行研究,动态真实的模拟其交互过程,展开相关工作。本文研究工作包括:(1)对于模拟泥土被翻动挖掘时的
基于模型诊断是人工智能领域的热门研究课题,弥补了传统诊断方法的多种不足。其理论研究成果丰硕,并广泛应用于实际生产中,加快了人工智能的发展速度。通常分两步对其求解:首先,求解给定电路系统的全部极小冲突集;然后,求解全部极小冲突集的全部极小碰集,即为给定电路系统的全部极小诊断解。可满足问题(SAT)是经典的NP问题,其理论研究及技术应用发展成熟。很多问题都可以转化为可满足问题求解。国际上定期举办的SA
单重态激子分裂(singlet fission,SF)是指1个单重态激子与1个处于基态的分子发生相互作用,单重态激子分裂生成2个三重态激子的过程。此现象在光催化、光伏和光探测等领域中的运用具有较好前景。SF过程多发生在各种并苯(包括anthracene、tetracene和pentacene)以及它们的衍生物中。作为并四苯衍生物之一的红荧烯(rubrene)材料,由于其具有较窄的能隙、较高的载流子
滨湖空间是具有生态功能的开放空间,由湖体和湖岸组成。湖体是雨水重要的调蓄载体,湖岸是雨水净化的载体。湖岸土壤和植物根系能够保持水土,其自然洼地在降雨时渗蓄和净化雨水,旱时将蓄存的雨水通过渗蓄作用回补湖体,错落有致的植物景观带可以保证自然生态系统具有稳定的自我修复功能,是城市居民可以接触到为数不多的自然生态区域。本次研究对象为天津市天嘉湖片区,该片区是以广阔的天嘉湖为中心的湖岛居住区,居住用地和配套
科研团队是高校科研创新的重要单位,在高校科学研究中占据核心地位。青年教师作为高校科研队伍中最积极、最活跃的有生力量,也日益受到各界的广泛关注。本研究以一所高水平研
在当今人工智能时代,特征选择是具有重要意义的大数据预处理的方式。特征选择可以避免维度灾难、减少学习算法在执行过程中的时间、有效地防止过拟合现象、过滤掉噪声数据。在这个数据量如此庞大的今天,我们需要从巨大的数据量中找到一些对我们有用的数据再进行训练或者学习,所以特征选择无疑是值得研究和探讨的。特征选择是一个需要从庞大的数据集中挑选出优质的特征的过程,因此也可以理解成是一个搜索过程。而如果我们用穷举的
有机发光二极管(organic light-emitting diode,OLED)是一种视角广、发光亮度高、响应迅速、效率高、可弯曲的新型平面显示设备。近几年,为了进一步提高器件的性能和实用性,研究人员对早期的OLED器件做了许多改进,其中使用掺杂发光层和新型光电材料都是常见的手段。在发光过程中,OLED发光层内会产生各种自旋对态(极化子、激子等),并产生自旋对态间的相互转化,这些过程都会对发光