基于多智能体强化学习的多目标动态规划技术研究及实现

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:jacykeaichenai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多目标动态规划是智能无人集群系统协同任务控制中的一个典型问题。多目标动态规划技术可以广泛应用于无人机集群的协同目标跟踪、协同目标打击、协同送货以及协同目标搜索等应用当中,能够为这些应用任务高效完成提供有效支持。多目标动态规划问题最主要的挑战是:如何在一定约束条件下,以最优的方式,在智能体集群中合理分配目标,规划出所有智能体的无碰撞路径,使得整个任务完成代价最小化,即在保证低碰撞概率的同时,寻找最短运动路径。为此,本文针对无人集群多目标动态规划问题展开研究,提出了一个基于多智能体Actor-Critic框架的多目标规划模型以及一种基于分层注意力机制的多智能体强化学习算法,构建了一个基于多智能体强化学习的多目标动态规划原型系统,在此基础上,对本文的研究成果进行了实验验证。本文的贡献包括以下三点:(1)针对现有方法难以适应未知的动态任务环境以及难以应对任务中智能体数量与目标数量不对等问题,提出了一个基于多智能体Actor-Critic框架的多目标动态规划模型。该模型将智能无人集群抽象为多智能体系统,将多目标动态规划问题抽象为多智能体任务,利用人工势场法设计奖励反馈,同时利用奖励反馈描述任务约束,使用多智能体Actor-Critic框架,在动态环境中对模型进行训练,鼓励智能体充分探索环境,能够使智能体学习到有效的策略,从而提升智能体策略的实时性和鲁棒性。(2)针对智能体异构且任务中智能体数量增多导致的Critic输入空间维度爆炸问题,提出了一种基于分层注意力机制的多智能体强化学习算法,该算法基于多智能体Actor-Critic框架,采用集中训练、分布执行的模式,利用循环神经网络和分层注意力机制进行信息表示学习和信息加权压缩,提升了算法处理效率,而且该算法既适合静态多目标分配场景也适合动态多目标分配场景,具有良好的适应性和可扩展性。(3)基于上述研究成果,设计并实现了一个基于多智能体强化学习的多目标动态规划原型系统,搭建实验环境,在Open AI开源的多智能体粒子环境中构建实验场景,对本文的研究成果进行了实验验证。结果表明,相比于现有的方法,本文所提出的模型和算法在性能、鲁棒性等方面均有明显的提升,并且具有一定的可扩展性。
其他文献
随着疫情等黑天鹅事件频发、中美贸易战如火如荼、中国国民经济和社会发展进入“十四五”规划时期、金融供给侧结构性改革稳步持续推进,企业的融资规模和需求也不断增加,虽然股票发行的注册制改革在一定程度上缓解了IPO难的问题,但在中国企业上市资格整体较为稀缺的背景下,借壳上市仍然是很多企业在上市时的一个备选项。借壳上市企业在“借壳”之余,对壳公司本身的价值是否有要求?与此同时,在企业实践中,融资决策与投资决
学位
分布式电子战研究方兴未艾,基于对象过程方法论(Object-Process Methodology, OPM)提出了一种分布式电子对抗侦察模型框架。首先,对OPM方法进行了简介。其次,基于OPM方法,从功能级层面对传统电子对抗侦察模型和分布式电子对抗侦察模型进行构建,具体包括顶层设计模型、子行动过程模型和节点实体模型。最后,借助推演功能对传统电子对抗侦察模型和分布式电子对抗侦察模型进行了比对。推演
期刊
信用是经济发展中产生的一种生产和社会关系,也是经济社会健康运转中不可或缺的一部分,资本市场上,信用评级有助于投融资双方对企业信用风险进行评估,减少信息不对称,提高市场资产配置效率,为现代企业制度的建设提供良好的条件。目前我国评级市场仍以发行人付费评级模式占主导,而由于发行人评级机构依靠评级对象支付费用进行日常经营活动,因此两者易于产生利益冲突问题,评级机构不能保持中立以及客观性,会为了自身利益扭曲
学位
随着债务市场不断发展,债权融资对企业越来越重要。从2014年“超日债”无法按期全额支付利息成为首例债券违约事件到2021年房地产企业违约暴雷频发,上市公司债务违约已经成为一大热议的话题。对于企业来说,违约风险的暴露会增加企业筹措资金的压力,提高企业融资成本。对于银行或者其他债权人来说,债务违约事件频发,势必激发资本市场上投资者的避险情绪,增大对企业债权融资的限制。无论是从企业长远发展还是从维护债权
学位
随着人类发射航天器的数量急剧增长,在轨失效的航天器也随之不断增多。这些失效航天器大部分可看作非合作目标,即地面无法直接对它们进行控制操作,如果任由这些失效航天器在太空中继续漂浮会严重威胁正常运行卫星的安全。针对失效航天器进行在轨维修,延续其在轨运行寿命,对有效利用太空资源、降低太空威胁等级具有极其重要的意义。本文采用多颗微纳卫星作为服务星,围绕着多颗微纳卫星捕获失效航天器形成组合体后姿态接管控制这
学位
作为非正式制度的重要组成部分,文化对经济发展和企业经营管理活动具有深远的影响。尤其在中国这样一个正式制度日益完善但依然欠缺的新兴市场国家,非正式制度可能发挥着更大的作用。近些年来,非正式制度文化开始被引入财务学领域,学者们开始研究非正式制度文化这一机制对现代企业经营行为的潜移默化的影响。“融资难、融资贵”极大地制约了我国经济的发展,也极大地限制了我国企业的生存。因此,企业要想持续发展,必须尽快摆脱
学位
数值天气预报(Numerical Weather Prediction,NWP)是一种主流的天气预报方法,它的预报准确性受诸多因素的影响,模式初始场的不确定性是影响NWP预报性能的重要因素之一。在数值预报过程中,主要通过资料同化方法,将所有可用的观测信息与短期模式预报场信息进行有效融合,从而生成高质量的模式初始场。混合资料同化方法是当前较为流行的资料同化方法,其主要思想是将变分同化和集合同化两种经
学位
随着资本市场和监管体系的发展,管理者偏好通过真实盈余管理来操控会计信息。真实盈余管理会严重损害公司的长远发展,但其具备较强的隐蔽性特征,因此管理者通常会选择真实盈余管理来干预会计信息,以避免被监管部门发现。为解决该问题,需要深入了解管理者进行真实盈余管理的根本原因,分析其背后动机。面对内外部机制的各种激励和压力,管理者为了保住职位会做出有利于个人利益的决策,这便是管理防御。出于管理防御动机,管理者
学位
“债券通”是中国债券市场对外开放进程的重要里程碑,也是金融供给侧结构性改革的必要举措,服务于实体经济是其主要着力点。于2017年7月3日正式上线运行的“北向通”,是“债券通”政策得以落地的标志。“债券通”是一种境内外互联互通的运行机制,其互联互通的便利性特征简化了境外投资者参与中国银行间债券市场进行债券投资的流程。“债券通”的运行为境内市场注入更多活力,仅上线四年就成功吸引大批境外投资者,为境内市
学位
多无人机协同跟踪技术是智能无人集群系统中的一个重点技术,该技术可以广泛应用于实际应用场景中,如播洒农药、人工降雨、地表温度采集等应用场景。多无人机协同跟踪为人力无法执行的复杂场景任务提供了有效的解决方案。目前,多无人机协同跟踪问题中存在三个主要的挑战:如何同时保证目标跟踪算法的实时性、准确性和鲁棒性;如何在相机标定条件不足,无法获得准确相机内参的场景下,保证目标定位算法依然能够准确定位目标;如何在
学位