稀疏奖励下基于强化学习的异构多智能体对抗

来源 :信息技术 | 被引量 : 0次 | 上传用户:mnjhkiuu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文中在多智能体对抗问题研究过程中,采用强化学习为研究方法,以完全中心化训练架构为基础,选用基于策略的强化学习算法,针对领域研究中广泛存在的稀疏奖励问题,采用基于任务局部的奖励工程设定方法,以人为经验知识为导引,加速训练过程,提升训练结果。最后以对抗问题中典型的攻防对抗为场景进行了仿真实验,验证了方法的有效性。
其他文献
为了防止攻击者在深度学习图像分类过程中还原训练集数据并保护输入图像数据,提出一种基于层级相关性传播的差分隐私分类算法.该算法首先采用层级相关性传播模型量化图像的特
针对电力大数据规模的不断增大,传统的电力数据处理平台已经无法满足电力业务的数据存储和处理需求,该研究结合云计算和智能电网技术,设计一个基于云计算的电力大数据处理平
“摩尔定律”是集成电路行业所遵循的规律,是指价格不变时,集成电路上可容纳的晶体管数目,每隔18-24个月便会增加一倍,器件性能亦提升一倍。然而,近年来,诸多数据统计显示,晶
基于NSGA2算法存在收敛性和分布均匀性不足的问题,文中研究了一种改进的NSGA2算法,该算法使用算术交叉算子和精英交叉策略,并引入了伪适应度值的概念。同时,为更好地研究分布
20世纪初,转译自日本的“共产党”一词进入中国话语体系。但起初“共产党”一词在中国鲜为人知,普罗大众不知何为“共产党”,何为“共产主义”。中共成立后,开启了对“共产”
随着我国自动测试技术的高速发展,反馈纠错机制的研究也在自动测试技术领域中得到了越来越多的关注。鉴于此,该研究对数据远程传输反馈纠错机制进行了优化设计,并对提出的改
电力大数据服务是智能电网建设的关键,提出了基于改进AP聚类的用电行为分析方法和基于随机森林的电力负荷预测方法。针对AP聚类分析用电行为存在的复杂度较高问题,利用熵权法
习近平青年教育思想,是习近平新时代中国特色社会主义思想的重要组成部分,蕴含着丰富内容和彰显鲜明的时代特色。它始终以“四个意识”,即以习近平新时代中国特色社会主义思
为了使电网系统可以有效、可靠地运行,提高系统可用性和安全性,并减少对环境的影响,提出了一个分析智能电网实时管理问题的框架。考虑到操作场景和系统特性,使用多智能体系统
增量配电网逐步进入人们的视野之后,出现的问题逐渐增多,尤其是多种离散型电源接入增量配电网后,极大影响了增量配电网的稳定运行。针对能源控制问题,文中提出新型的增量配电