基于深度强化学习的云计算虚拟机放置算法研究

来源 :肖剑宇 | 被引量 : 0次 | 上传用户:a1390749
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
云计算为海量用户在数据中心的物理机上创建虚拟机并分配相应的计算资源,是一种日益普及的计算范式。虚拟机放置问题是云计算中的关键问题,目的是为按需创建的虚拟机动态分配合适的物理机,实现提升云计算服务质量、降低数据中心能耗等目标。相比于传统方法,基于深度强化学习的虚拟机放置算法在处理复杂优化目标及动态适应变化环境等方面具有较大的优势,是当前的研究热点。但是,目前已提出的基于深度强化学习的方法存在抗过拟合能力不足、状态抽象能力差等缺陷。本文针对上述缺陷研究改进方案,提出一种融合互信息特征提取和深度强化学习的虚拟机放置算法。首先,针对当前深度强化学习算法在虚拟机放置问题中面对复杂状态和高维动作时易过拟合、收敛难等问题,本文提出一种基于的Dueling-DDQN的深度强化学习模型,并进一步在探索方法、训练方法等方面使用玻尔兹曼探索、多步自举等方法针对虚拟机放置的问题场景提出改进。与未作改进的深度强化学习模型相比,本文的改进深度强化学习模型平均奖励高出约20%,训练时收敛时间点提前约16%,收敛后的奖励曲线震荡幅度减小了约30%,分配失败率稳定在2%,模型稳定性得到提升。相比于经典的首次适应算法,本文提出的算法使数据中心能耗降低15%,用户服务质量提升约60%,平均综合奖励提升了 20%。其次,针对现有基于深度强化学习的方法在面对复杂状态空间时表示能力弱、模型稳定性差的问题,本文在Dueling-DDQN模型的基础上进一步提出基于Deep InfoMax互信息特征提取的状态空间预训练方法,并针对虚拟机放置场景中“物理机顺序不相关”和“时间相关”特性对互信息特征提取方法做出改进。实验结果表明,相较于未加入特征提取的方法,该方法的平均奖励提升约6%,平均能耗降低10%,用户服务质量提升9%,且收敛更加稳定,过拟合现象降低,利用较小的预训练时间损耗换来了多项模型性能的提升。研究表明,本文提出的算法具有处理速度快、抗过拟合能力强、稳定性强等优势,是一种能够有效地适应复杂环境的云计算虚拟机放置方法。
其他文献
随着全球导航卫星系统的发展,卫星导航技术深入应用于社会生活和军事领域,卫星导航安全也愈发受到各国重视。导航信号经过距离衰减后,到达地面的信号功率极其微弱,且民用信号结构公开,因此容易遭到自然干扰和人为恶意干扰。自然干扰不可避免,而人为的恶意干扰危害极大。人为干扰分为压制干扰和欺骗干扰两类,相较于压制干扰,欺骗干扰更隐蔽且用户防御难度更大。论文以GPS系统为研究对象,针对如何提高单天线民用导航设备防
学位
当前各国仍广泛存在国有企业,并在国际投资活动中占据着举足轻重的地位。国有企业大多为政府控股企业或者政府参股企业,与政府存在着天然的联系,在国际社会上通常使用 State-Owned Enterprises、Government-Controlled Entities、State Enterprises等称谓形容国有企业。在国际投资活动中可能涉及到两类国有企业,一类是作为外国投资者的国有企业,另一类
学位
随着乡村振兴战略的提出以及农村居民生活水平的提高,农村环境协同治理越来越成为当前农村治理的一项重点内容。而当前农村环境治理仍存在运动式治理以及政府主导的特征,急需促进农村居民参与到环境治理过程中。同时当前也缺少针对乡村环境协同治理农民参与效应的评价指标,因此有必要在明确农民环境参与情况及其影响因素的基础上健全相应的指标体系。本文基于福建省长汀县的田野调查发现,农村居民的环境参与行为执行情况整体较好
学位
美国法院对纳税人诉讼的审理从萌芽发展到理论成熟,至今经历了 170多年。在1923年弗罗辛厄姆诉梅隆案(Frothingham v.Mellon,以下简称为弗罗辛厄姆案)中,美国联邦最高法院认定“分摊到每个纳税人身上的损害微不足道”,自此纳税人诉讼原告资格(standing)的审查奠定了严格、谨慎的总基调。在1968年的弗拉斯特诉科恩案(Flastv.Cohen,以下简称为弗拉斯特案)中,联邦最高
学位
在近红外二区(NIR-II)成像时,光的衰减和散射以及背景的自荧光都较弱,因此NIR-II成像有良好的深层组织穿透性和较高的空间分辨率特性。迄今为止,用于NIR-II成像的材料主要包括有机共轭聚合物、无机纳米材料、有机小分子等。无机纳米材料具有良好的可调节性及量子产率较高等优点,但其原料常常具有生物毒性。有机共轭聚合物虽然生物毒性较低,但也有代谢较慢、分子量不确定性等缺点。有机小分子探针因其结构可
学位
2020年我国实现了现行标准下贫困县全部摘帽、贫困人口全部脱贫、建档立卡贫困户“两不愁三保障”,全面解决了绝对贫困问题,进入后扶贫时代,至此贫困治理工作的重点向巩固和拓展脱贫成果进行转移。巩固脱贫成果是通过防止脱贫户返贫和纳入动态监测户的“边缘户”致贫来实现,拓展脱贫成果则是通过治理相对贫困和实现共同富裕来实现。这个贫困治理模式的转变,要经历一个过渡期,需要有效衔接才能保证治理的接续性和可持续性。
学位
随着高等教育改革的蓬勃发展,我国高等院校办学质量、教育水平、学生规模等均明显提升,高校办学自主权不断加大,从而导致高校出现违法乱纪案件也逐年增加。由于内部控制体系进入我国的时间较晚,最初只是应用于企业管理,内部控制则在事业单位发展起步晚、发展慢。我国高等学校大多数属于事业单位,但是现阶段,我国并未建立起完善的关于高等院校的内部控制研究体系,而此时现行的管理模式已经难以适应新的发展需求。为了充分执行
学位
随着深度学习的快速发展,基于深度神经网络的雷达高分辨距离像(High Resolution Response Profile,HRRP)识别算法在雷达自动目标识别任务中取得了较好的成果。由于HRRP信号存在较大的姿态敏感性,此类基于深度学习的雷达目标识别模型,往往需要较充足的全姿态HRRP数据作为训练样本,而在实际应用中,经常存在着非配合目标数据缺失,无法捕捉目标全姿态样本的现象,继而导致由数据驱
学位
BBNJ国际协定谈判是目前海洋法领域最重要的立法进程之一,吸引了国际社会的广泛关注,目前谈判进程已经进入到政府间谈判会议阶段。作为1982年《联合国海洋法公约》的第三份执行协定,新文书的缔结将会对国家管辖范围外海洋生物多样性的养护和可持续利用产生重大影响。预先防范原则作为一种风险管理工具,能有效防止人类因认知不足所导致危险发生而带来的不可逆转的后果。然而,预先防范原则也是一项新兴的法律原则,虽然在
学位
光疗法包括光动力疗法(PDT)和光热疗法(PTT)。目前,光疗法因具有良好的时空选择性,低副作用,可忽略的耐药性和非侵入性方式等优点,正逐渐成为传统癌症治疗的补充甚至替代治疗方法。PDT是一种利用光激发光敏剂产生生物毒性活性氧来治疗肿瘤的微创技术。PDT所产生的活性氧(单线态氧、超氧阴离子、羟基自由基等)将肿瘤细胞中的生物大分子氧化,从而导致细胞死亡。PTT也是一种微创和高效的抗肿瘤方法,它基于光
学位