基于增强学习的平行机调度研究

来源 :计算机集成制造系统 | 被引量 : 0次 | 上传用户:lu_bright_zhang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
尝试运用增强学习方法来研究平行机调度问题,通过定义系统状态、行为和报酬函数,把调度问题转化为平均报酬型半马尔可夫决策过程,并使用结合函数泛化器的R—Learning算法来解决。提出排名算法,并利用它和两种常用的调度规则(最短期望加工时间规则和先进先出规则)来定义增强学习的行为。实验结果表明,R-Learning算法通过仿真实验学习较优的调度策略,在不同的决策状态下选择最优或次优的行为,对每个测试问题的效果都优于以上任何一条调度规则。
其他文献
高校公开招聘中存在的问题的特点主要包括三个方面:关注度高,易造成不良影响;突发性强,易引起不良后果;敏感性强、敏感性强,易引发问责。高校自身因素、考生个人因素、不可控
为将面向负荷的生产控制技术应用于订货生产企业,提出了一种基于面向负荷的生产控制技术的交货期设置方法。该方法是基于能力计划安排的交货期设置方法,它考虑面向负荷的生产控
统一战线是中国共产党在革命战争年代探索出来的三大法宝之一。七七事变前,中国共产党在冀、察两省和平、津两市进行了卓有成效的统战工作,将爆发于该地的一二九学生运动引向
矿井通风阻力作为影响矿井安全高效生产的重要因素之一,积极研究导致矿井通风阻力较大的原因及相应降低的方案对于实现矿井的有效通风具有重要的意义,基于此,本文分析了通风
在煤矿实际生产过程中,由于井下环境较为恶劣,导致发生事故的可能性相对较高。大多数矿井以先进的技术为研究背景加强井下供电过流保护,对于矿井安全生产具有极其重要的意义
根据选择性拆卸的特点,介绍了基于混合图的选择性拆卸模型。该模型描述了零件间的接触连接关系和非接触优先关系。基于混合图模型,以单个零件为目标推理生成选择性拆卸序列解
针对由两个生产商和两个零售商构成的供应链网络中的供应商间生产能力的竞争、零售商间零售价和订购量的竞争问题,建立了最大化期望利润的竞争模型,并对均衡策略进行了分析。在
为解决产品定制过程中顾客满意度与产品维护复杂性、维护成本之间的矛盾,应用联合分析模型和“内插法”来确定产品定制的程度。在该模型中,对产品构件进行重新分类,首先运用
情感与理性历来是教育工作者研究的对象,传统中一直存在着“情理二分”与“情理合一”两种不同的看法。情理之辨同样体现在德育教学过程中。在传统的德育教学中,情与理一直处于