基于深度强化学习的敏捷卫星调度方法研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:simon_sx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着航天技术的快速发展和在轨卫星的不断增多,卫星系统面临着更加复杂多样的任务需求和应用诉求,在以人工智能技术为引领的全球化技术革新与发展背景下,卫星系统呈现应急化、智能化和信息化发展态势,传统的方法很难适应新的需求与挑战。为了充分发挥卫星系统的效能,本文立足于敏捷卫星调度问题,以深度强化学习方法作为切入点,针对传统方法对任务特征信息和历史调度信息利用低这一基本缺点,面向任务优先级的精确统筹和高效的调度算法开展研究,提出了基于深度强化学习的敏捷卫星调度技术研究框架。本文首先对敏捷卫星调度问题进行描述,并建立相应的数学模型,在此基础上结合深度强化学习方法的特点,提出了两个结合方向:任务优先级统筹和智能调度算法;针对基于深度强化学习的敏捷卫星调度模型的学习训练,提出了学习训练框架,具体来说,通过算例生成方法,对该问题的任务进行任务信息统计并得到大量数据集,在此基础上通过任务特征工程,对其特征参数进行分类和选择,并开创性的提出姿态角特征参数,解决了敏捷卫星深度强化学习模型的特征输入问题;最后通过强化学习的训练方法对不同应用场景的深度学习模型进行训练,得到高效求解模型。针对任务优先级统筹的应用场景,本文提出了一种基于深度强化学习的敏捷卫星任务优先级统筹模型(S2SNN)。论文首先针对敏捷成像卫星调度问题,介绍了传统基于启发式函数的优先级排序方法,在此基础上,设计了一套新型优先级排序流程,在此基础上建立基于Seq2Seq的深度学习优先级统筹模型,同时,通过大量的场景,利用强化学习的方法对S2SNN进行训练。仿真实验表明该模型能更好的利用任务特征,对任务进行有效的排序,且该模型对不同任务规模的调度场景具有很好的泛化能力,在不同规模的场景中,以该模型为基础的启发式构造算法与对比的启发式构造算法的运行时间处于同一量级,但较其中最优启发式构造算法收益更高,在每一个场景规模中均取得了最优调度,收益平均高出9%,此外,该模型对不同任务分布的场景同样具有良好的泛化能力,在每一个分布场景中均取得了最优调度,且收益平均高出7%。综上所述,本文提出的S2SNN模型充分利用了任务的特征信息,对任务集进行有效优先级排序,具有很好的应用价值。针对智能调度算法的应用场景,本文提出了一种基于深度强化学习的敏捷卫星端到端模型调度算法(DRLM)。论文首先建立了基于马尔可夫决策过程的敏捷卫星调度模型,在求解过程和特征工程的基础上设计了适应马尔可夫决策过程的深度学习模型,通过仿真实验得到大量的训练数据并采用强化学习的方法对模型进行充分训练,得到基于深度强化学习的成像卫星端到端模型。仿真实验表明该模型较其他启发式构造算法性能更优越,且算法表现出了同S2SNN模型一样的良好任务规模泛化能力,在不同规模的场景中,最优算法较对比算法中最优启发式构造算法收益平均高出13%,此外,该算法的计算的运行时间同启发式构造算法处于同一量级,且该算法的计算复杂度为线性时间,在大规模问题上较启发式构造算法的多项式时间更具优势。在模型的泛化能力上,该算法表现出了同S2SNN模型一样的良好泛化能力,对不同任务分布和任务规模的场景具有很好的泛化能力,在每一个场景中均取得了最优调度,且收益平均高出8%。此外,仿真对比试验表明,S2SNN模型输出的特征与任务特征提取提出的姿态角特征能够加速模型的训练,并让模型取得更好的求解性能,特别是本文开创性提出的姿态角特征参数,让模型的性能平均提升3%。综上所述,本文提出的DRLM算法充分利用任务特征信息,兼顾收益和时效性,具有很好的工程应用潜力。
其他文献
7—8世纪是晚期罗马帝国向中古拜占庭帝国转型的最后阶段。法律编纂呈现了帝国统治者的治理理念,反映了转型过程。《民法大全》在适用中面临法学传承、语言等难题,是转型前“罗马困境”的缩影。7—8世纪的法律编纂,弱化罗马法的部分原则,吸纳希腊法和不成文法,同时实现全面基督教化,基督教信仰成为立法精神、法律渊源和法条内容等。该时期拜占庭统治者在坚守罗马帝国名号和威权的前提下,放弃或淡化了传统理念中的拉丁区域
期刊
雷达辐射源信号的分选与识别是电子战的重要组成部分与关键环节,一直是国内外学者的研究热点。近年来,随着雷达体制的升级与雷达信号技术的发展,电磁环境变得日益复杂,同时伴随各国电磁保密意识增强,提前获得非合作雷达辐射源的标签与调制方式等信息也越来越困难,这些对传统的雷达辐射源分选方法和手段带来了严峻挑战。针对上述问题,本文提出了使用无监督深度学习算法提取信号特征,并采用合适聚类算法完成非合作雷达辐射源信
学位
大量的云层覆盖严重影响卫星遥感影像的地物判读,为有效提高资源利用率,云检测已成为分析卫星遥感影像数据的首要工作。高空间分辨率遥感影像能够精确观察小空间尺度上的地表细节,但与此同时也对云检测技术提出更为严苛的要求。大多数高空间分辨率遥感影像仅含有红、绿、蓝、近红外四个波段,传统需要依赖大量特定波段的云检测算法难以对其发挥优势。因此,本文在研究国内外相关云检测算法的基础之上,结合深度学习技术提出具有普
学位
在通信对抗领域中,如何对通信辐射源个体进行准确识别一直以来是一个重点研究问题,是目标侦察系统亟待解决的关键技术之一,它依照通信发射器设备的物理层特性差异来分类识别不同的辐射源个体。通信辐射源个体识别技术对于通信网络结构的分析、目标威胁等级的评估和战术战略的决策等方面都有着关键性作用。在日益复杂的电磁环境下,传统的通信辐射源个体识别方法存在的自适应性不足和鲁棒性差的问题,导致其不能满足现代战场环境下
学位
2001年5月,昆曲被列为“人类口述的世界非物质文化遗产”名录,其传承六百年的文化价值得到世界认可。在这种背景下,国家和政府开始制定政策大力保护昆曲文化,以免昆曲逐渐消失在大众视野中。为了快速建立起大众对于昆曲的文化印象,设计师们从昆曲的众多文化元素中提取最为明显的视觉符号,进行设计并不断强化。虽然达到了最初的目的,但随着时间的推移,也让人们产生了严重的视觉审美疲劳,这为昆曲的有效传承带来了莫大阻
学位
对北美地区中密度纤维板产能进行分析,并描述北美国家中密度纤维板工厂变化情况。
期刊
<正>联合国粮农组织(FAO)和联合国欧洲经济委员会(UNECE)联合发布《林产品市场报告(2021—2022年度)》。该报告提供了联合国欧洲经济委员会区域(欧洲、北美、中亚和西亚国家)市场的全面分析,范围涵盖了原木、锯材、人造板、纸、纸板以及木浆,通过政策分析,评估主要趋势和驱动因素,其中人造板情况如下。
期刊
多机器人系统在各个领域有着广泛的应用,通过多机器人系统的群集控制实现大量自主个体的协同工作且保证其安全变得至关重要。受到生物群体行为的启发,本文对多机器人群集控制问题展开研究,针对传统群集控制算法需要建立精确模型和控制律设计工作较为繁琐的缺点,采用深度强化学习的方法实现多机器人群集控制。首先,针对多智能体深度确定性策略梯度算法学习效率低下、收敛速率慢的缺点,本文引入了优先经验回放机制,提出了强化学
学位
随着《乡村振兴战略规划(2018—2022)》的实施和大型城市减量发展的转型,相应地,风景园林专业在规划设计领域的发展将由面向城镇绿地逐步向乡村建设转变。但由于大多数高校园林专业在课程设置和教学中不够重视,导致绝大多数学生都较为缺乏乡村设计方面的知识和能力。因此,我们需要研究在“乡村振兴”战略背景下,研究风景园林专业教学与该战略的关系,调整教学内容,构建面向“乡村振兴”战略的教学模式。结合高校、企
期刊
在信息化作战的条件下,各类传感器收集的战场信息往往受限于复杂的地理、气象、水文和电磁环境而呈现高维度、高度稀疏和带有大量噪声的特点,如何正确运用人工智能方法分析这些数据内部的本质关系和内在信息非常重要。在这项研究中,我们以自然界中的一种天然的高维稀疏带噪声的数据——单细胞RNA测序数据为切入点,研究一类能面向该类数据做到准确分析的通用算法。单细胞RNA测序(scRNA-seq)聚类对于识别细胞类型
学位