基于深度强化学习的多智能体围捕逃逸研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户：quake

【摘要】

：

【作者】

：

徐琳

【机构】

：

华中科技大学

【出处】

：

华中科技大学

【发表日期】

：

2020年期

【关键词】

：

强化学习分布式多智能体围捕策略梯度梯度算法不完全信息问题循环神经网络可扩展性算法训练时间自主决策逃逸

【基金项目】

：

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着现代信息技术的发展，多智能体围捕-逃逸对抗博弈问题在军事、工业、农业等领域得到越来越多的关注，目前的多智能体围捕-逃逸对抗研究大多都是从经典控制理论出发，根据智能体的数学模型构造控制策略，但这一方法忽略了现实生活中对智能体建立精确数学模型的难度，具有一定的局限性。因此，本文引入深度强化学习的方法，通过探索试错学习方式，让智能体在与环境交互的过程中自主决策，不断更新自身策略，实现最优决策的目的。
　　深度强化学习结合了深度学习和强化学习两大技术的优势，不仅具有强大的特征提取能力，还具有卓越的自主决策能力，能够直接将原始输入数据转化为决策输出，从而控制智能体的行为，是一种更接近于人类思维的人工智能算法。
　　本文基于深度确定性策略梯度算法，针对其扩展性差的问题，改进传统神经网络结构，利用循环神经网络动态输入动态输出特性，提出了多智能体围捕-逃逸可扩展性算法，从而解决多智能体的可扩展性问题。同时，为了解决在不完全信息下，深度强化学习训练智能体不稳定甚至不能收敛的问题，本文设计辅助预测模型(APNM)以推断其他智能体的环境状态信息，APNM联合所构建的多智能体围捕-逃逸训练学习框架(MAPELF)，解决了智能体部分可观测带来的不完全信息问题。最后根据多智能体复杂环境的具体情况，改进传统策略梯度方式，提出分布式多智能体策略梯度算法，解决当智能体数量较多时，神经网络训练时间长等问题。
　　实验结果表明，本文所提出的可扩展性算法提高了传统深度确定性策略梯度算法的泛化能力，APNM可以解决不完全信息下智能体难以训练的问题，相比传统的策略梯度算法，本文采用的分布式多智能体策略梯度在智能体比较多的情况下，不仅缩短了训练时间，还提高了算法稳定性和性能。仿真实验验证了上述所提算法的可行性和有效性。

其他文献

基于控制行为模型的工控系统信息安全防护方法研究

工业控制系统广泛应用于石油、制造、化工、交通、能源等关键基础设施中。随着工业化和信息化的深入融合，工业控制系统互联性、开放性达到了前所未有的程度，致使工业控制系统面临严峻的信息安全威胁。
　　为有效保障工业控制系统信息安全，通过分析工控系统的典型特点及其脆弱性，并参考工控信息安全防护体系，提出“异常检测—入侵响应”的动态信息安全防护防护方法。该方法是通过及早检测出系统的异常行为，并针对性做出响应措施，以减轻攻击对系统产生的破坏，从而保障工业控制系统的运行安全。
　　针对工业控制系统信息安全防护

学位

工业控制系统行为模型工控系统信息安全防护执行器方法异常检测攻击模型重构技术控制重构异常行为稳定运行

基于陷阱技术的电力调度自动化系统防御方法研究

随着电力系统智能化要求的提高，特别是智能电网的不断发展，各种信息技术不断加入电力系统运行的调节与控制，导致电力信息系统和物理系统的耦合度及相互影响越来越大，网络攻击对电力系统安全性和稳定性的危害也愈渐严重。作为电力运行控制“大脑”的电力调度自动化系统更是成为攻击者们的众矢之的，针对该系统的攻击种类繁多、方式多样，传统的防御方法难以应对。因此，针对电力调度自动化系统的攻击防御方法研究迫在眉睫。
　　本文首先对已有的电力信息物理系统(cyber-physical system, CPS)攻击防御方法进行

学位

陷阱技术电力调度自动化系统主动防御系统攻击防御防御方法防御决策电力系统运行安全风险评估总体框架物理系统决策算法防御措施

边云协同的工业信息物理系统动态安全策略决策方法研究

工业信息物理系统是在工业控制系统的基础上深度融合信息通信技术的转型和升级，是安全关键系统，保障其信息安全至关重要。随着云计算和大数据等新技术的引入，工业信息物理系统在朝着智能化方向发展的同时，其现有的信息安全问题也变得更加复杂。目前很多信息安全研究工作缺乏对工业信息物理系统的适应性，亟需构建适用于工业系统转型升级的安全防护体系。安全策略决策是该防护体系的关键核心环节，受到越来越多的关注，但当前安全措施缺乏防御高级可持续威胁的主动决策能力。
　　在深入分析云计算环境下的工业信息物理系统安全策略决策需求

学位

智能协同工业信息物理系统动态安全策略策略决策博弈模型信息安全问题随机博弈决策方法风险评估云计算基础

小器械大智慧

【摘要】课题研究是教师不断进步平台，但是，很少有教师愿意并热衷于此项内容。多数是不太理解课题研究的意义，有一个错误、模糊的概念。本文将结合一个小小的器械，来阐述一个大智慧，课题研究能体现幼儿的主体地位，促进幼儿、教师的发展，深化幼儿园的管理。　　【关键词】主体地位教师成长幼儿园管理　　【基金项目】本文系江苏省“十二五”立项课题“棍球活动的开发与实践研究”（编号：D/2015/02/019）的阶

期刊

传播学在聋校语文教学中文化熏陶的作用

【摘要】从传播学而言，聋校语文教学是一种教育传播行为。语文教师作为传播者，通过视频图片、多媒体、互联网等媒介，将需要传授的知识、技能、思想、观点等传递给聋生这一特定的受众。既要注重课堂教学，还要注意开展相关的课外实践活动，采取有效策略，让聋生能更好地接受语文文化熏陶。　　【关键词】聋生语文教学传播学文化熏陶　　【中图分类号】G762 【文献标识码】A 【文章编号】2095-3089（2018

期刊

多机器人系统有限时间围捕研究

多机器人系统相比于单个机器人有着无可比拟的优势，近年来已成为研究的热点话题，而多机器人围捕是其中的一个重要问题，它在渔业、国防安全等领域具有重要研究价值。针对目前多机器人围捕研究很少考虑围捕时间限制的情形，本文以形成编队的围捕方法研究了多机器人有限时间围捕问题。主要内容如下：
　　(1)针对多机器人在给定时间围捕过程中的公平性问题，提出了一种基于任务公平分配的给定时间围捕算法。首先，通过定义公平系数作为衡量任务分配是否公平的指标，并给机器人分配任务，即分配目标点。其次，在任务分配完成后，设计周期性的

学位

多机器人系统有限时间观测器围捕任务轮式机器人Lyapunov函数方法时间控制器误差系统给定时间任务分配公平性问题目标点系统设计

基于心理暗示推荐的舆论引导策略研究

舆论是一种社会现象，从古至今都有着重要的影响。尤其是在现代，互联网信息技术发达，网络舆论传播迅速，如何及时地进行适当的舆论引导关系到社会稳定与国家和平，成为当今舆论研究中的一个重要问题。
　　本文在考虑现代互联网信息推荐技术的基础上，结合心理暗示效应，针对个体观点进行动态、渐进的暗示推荐引导，提出基于心理暗示推荐的舆论引导策略，并在现有舆论演化模型的基础上，建立了心理暗示推荐引导模型。本文采用计算实验方法，对心理暗示推荐引导的引导过程以及引导效果和影响因素进行实验研究，并将其与度引导策略进行了对比实

学位

心理暗示舆论引导引导策略互联网信息小世界网络对比实验适用性和有效性阈值信任观点心理学研究无标度网络

高中地理教学中核心素养培养的策略研究

【摘要】高中地理核心素养包括：人地协调观、综合思维、区域认知、地理实践力四个维度。本文以高中地理必修3“荒漠化的防治”为例，说明高中地理教学中地理核心素养的培养策略。　　【关键词】核心素养区域认知综合思维地理实践力人地协调观策略研究　　【中图分类号】G633.55 【文献标识码】A 【文章编号】2095-3089（2018） 11-0083-01　　党的十九大明确提出：“发展素质教育，推

期刊

巧设复习导学问题还历史本来面貌

【中图分类号】G633.51 【文献标识码】A 【文章编号】2095-3089（2018） 11-0094-01　　复习课不同于新课，新课好比一棵棵的小树，而复习课就是一片大森林，如果复习课只是机械重复新课的内容，那样就失去了复习的意义。复习是要形成知识系统，把一棵棵小树汇聚成大森林。通过复习让学生对历史有更高深的认识，才能起到复习的作用。　　复习课的导学问题，要注重引导学生思考知识之间的联系，认

期刊

借图形之力，促概念建立

【摘要】数的认识，数形对应，逐步抽象，便于建构意义，理解本质；数的运算，算数思形，以形助数，容易理解算理，掌握算法；认识数量，探索规律，数形结合，更是利于发现规律，解决问题。　　【关键词】数与代数数形结合以形助数理法融合建构意义　　【中图分类号】G623.5 【文献标识码】A 【文章编号】2095-3089（2018） 11-0090-02　　一、数形对应，以形助数，建构意义　　《1000以内数

期刊

基于深度强化学习的多智能体围捕逃逸研究

其他学术论文