基于深度强化学习的舰载机在线调度方法与应用研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:wuzhenlikk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
航母作战是现代海上军事作战中的关键部分,航母作战的决胜环节是实现安全高效的舰载机调度决策。随着军事科技发展进步,传统启发式智能算法辅助人工决策是目前舰载机编队出动回收作战调度应用最为广泛的方法。然而航母作战环境高危多变,航母甲板空间狭小、各类设备繁多,舰载机需要在具有动态不确定性的甲板空间完成保障、出动、回收等调度任务,这给原本就颇为复杂的航母作战增加了难度。同时由于海上作战任务的特殊性,调度算法需要支持舰载机持续出动回收,并能够在线对突发状况做出即时决策。目前常用的启发式算法批量对任务进行决策计算,这样会限制大规模舰载机持续出动能力和在线作战能力。针对传统调度算法在高危多变环境下实现多目标在线调度所面临的困境,提出应用基于马尔可夫决策过程的深度强化学习算法解决大规模舰载机持续出动回收过程中的多目标在线调度问题。本文的主要贡献包括:(1)针对舰载机持续出动回收的多目标在线调度问题,提出以减小舰面位移、减少会遇次数、均衡设备利用率和稳定调度周期作为调度决策目标,依照马尔可夫决策过程,构造以舰载机和各设备状态作为输入、调度行为值函数作为输出的在线调度即时决策模型。设计一种Action-Mask机制,提高动作选择效率,并将奖赏设置为带权重的特征向量,将多目标问题标量化为单目标进行求解,更符合实际应用的要求。该模型在有突发状况的舰载机持续出动回收的在线调度实验中,能够进行高效的调度决策。(2)针对舰载机出动回收调度问题的动态不确定性,利用深度强化学习算法进行调度决策的优化。将动态不确定性衡量为状态的一部分,在每个决策点随马尔可夫决策过程进行状态转移。为了避免过高估计,本文利用Double-DQN学习算法,构建两个网络分别进行动作选择和评估。利用可变的ε-贪婪策略选择执行的动作,同时为了避免神经网络训练过程中产生梯度爆炸和梯度消失,在神经网络中加入Batch Normalization层对输入的数据进行批正则化处理,使用自适应的激活函数,并在反向传递计算梯度时执行梯度剪裁。优化的深度强化学习算法得到的调度策略能够实现多目标优化,与启发式算法和调度规则对比有明显优势。(3)针对本文研究问题是在部分可观测环境下,为了从环境中获取更多的信息用于网络训练,得到更全面准确的决策模型,本文采用深度递归Q学习算法利用时序经验训练模型。同时,在神经网络中加入了注意力机制和优先经验回放机制,实现加快收敛速度并探索更优策略的目的,所得到的决策模型也更为稳定。
其他文献
随着科学技术和互联网的快速发展,有关经济文化等的热点话题不断涌现,围绕其展开的观点更是层出不穷。根据有关学者研究,当说话人表达命题时,也在表达各种立场,包括态度、情
目的先于神经元死亡的进行性轴突退化是阿尔茨海默病等神经退行性疾病重要的病理学特征之一。在伴有轴突进行性退化的AD脑中,Cdc42的水平上调并且与早期的细胞骨架异常共定位,提示Cdc42与轴突之间可能的内在联系。Cdc42调节神经元轴突发生,但其机制尚未阐明。去磷酸化的脑衰蛋白反应调节蛋白-2(CRMP-2)与微管蛋白结合促进微管组装从而促进神经元轴突发生,我们课题组之前的研究发现Cdc42促进神经
为了解决枣制品形式单一和枣果大量滞销的问题,分别以半干骏枣和新鲜骏枣为研究对象,采用太阳能干燥和真空冷冻干燥方法分别对枣块和枣浆进行单一干燥和联合干燥实验研究,并对干燥后制得的枣粉进行感官评定、营养成分测试分析和微观组织结构分析,选出最佳实验条件,实验结果可为制取枣粉的工业化生产提供指导。首先,在玻璃温室型太阳能干燥装置和真空冷冻干燥机内对不同厚度的枣块和不同液体高度的枣浆进行干燥特性研究,干燥枣
随着汽车这一交通工具的普及,人们的出行变得方便快捷。与此同时,汽车保有量的不断增加也加剧了城市中本就紧张的人-地关系,可供汽车泊车的空间日趋紧张。泊车入位操纵复杂,司机往往陷入手忙脚乱的境地,引发了大量交通事故。在上述背景下,辅助驾驶员泊车入位的自动泊车系统研究日趋火热。本文首先对汽车在泊车入位过程中的运行状态特征进行了研究,基于泊车入位实车试验数据分析提取了汽车在泊车过程中车速和方向盘转动的特征
实验一肝性脊髓病患者灰质结构MRI形态学研究目的:利用基于体素的形态学测量(voxel-based morphometry,VBM)方法,探讨HM患者全脑灰质结构变化的特点。方法:采用Siemens 3.0T
目的应用血流向量成像(VFM)技术观察肥厚型心肌病(HCM)、扩张型心肌病(DCM)及冠心病(CAD)患者左室血流流场状态,定量评价其收缩及舒张期左心室平均能量损耗(EL)和循环变化,进
研究目的:利用DNA条形码对近缘丹参进行比较研究,以期为近缘丹参的鉴定提供分子依据;对丹参脂溶性成分合成途径上的关键酶基因进行表达量研究,以期找出对脂溶性成分影响较大
研究背景糖尿病已成为日益严重的全球性健康负担。据统计2013年全球患糖尿病的总人数为3.82亿,预期到2035年,患糖尿病的人数可能达到5.92亿。糖尿病是世界范围内致残率和致死
特发性炎症性肌病(idiopathic inflammatory myopathies,IIMs)是一组以骨骼肌炎性细胞浸润、肌无力、肌疲劳为特征的一组疾病,根据不同的临床和病理学特征,可以分为以下几类:
英语写作对中国高学历英语学习者起着非常重要的作用。究其原因,是因为英语写作能力对他们而言不仅是学术发展的必要因素,也是全球化学术环境下重要的交际工具。因此,大多中