【摘 要】
:
现今,人工智能正经历着从感知到决策,从单智能体到多智能体系统的发展过程,这使得多智能体的行为决策与控制成为新的关注点。由于涉及到多个智能体同时交互学习,因此简单将原来应用于单智能体的深度强化学习算法直接应用于多智能任务场景,会带来环境的非平稳性和维数爆炸问题,除此而外,多智能体决策过程中还存在部分可观测以及训练缓慢等限制问题。本文针对以上存在的问题,基于最近流行的集中式训练分布式执行(CTDE)范
论文部分内容阅读
现今,人工智能正经历着从感知到决策,从单智能体到多智能体系统的发展过程,这使得多智能体的行为决策与控制成为新的关注点。由于涉及到多个智能体同时交互学习,因此简单将原来应用于单智能体的深度强化学习算法直接应用于多智能任务场景,会带来环境的非平稳性和维数爆炸问题,除此而外,多智能体决策过程中还存在部分可观测以及训练缓慢等限制问题。本文针对以上存在的问题,基于最近流行的集中式训练分布式执行(CTDE)范式和Actor-Critic类强化学习方法对多智能体的行为决策进行算法设计和实验验证,主要工作和创新点如下:(1)针对环境的非平稳性以及对策略空间探索不足的问题,本文基于CTDE范式,将最大熵强化学习算法SAC进行扩展,提出了一种基于CTDE和最大熵思想的多智能体深度强化学习算法MASAC。在中心化的训练阶段,单个智能体会兼顾其他智能体的策略变化从而克服环境的非平稳性问题,最大化策略的信息熵的引入加强了探索能力和策略的鲁棒性,算法最终输出随机策略,具有更强的决策能力。实验结果表明,在合作、竞争以及混合型的多智能体任务中,MASAC的算法性能和智能体的实际表现均优于基线算法。(2)针对部分可观测问题,基于MASAC算法,提出一种能够使智能体利用当前局部观测、历史观测序列信息以及智能体间传递的通信消息进行行为决策的多智能体深度强化学习算法R-MASAC。在智能体的Actor和Critic中引入循环神经网络GRU架构记忆功能,并采用隐状态存储策略。除此而外,在智能体间建立显示的通信信道来增强局部观测,帮助智能体进行行为决策,促进智能体之间的协作。设计了部分可观测且需要高度协同的多智能体同步且快速到达目标点任务对算法进行测试,实验结果表明R-MASAC的算法性能优于基线算法,经训练后的智能体能够在部分可观测的限制下以相互配合的协同策略成功地完成任务。(3)针对训练缓慢且需要大量交互经验数据的问题,基于MASAC算法,提出一种包含带有优先级的经验回放部分的分布式多智能体深度强化学习算法DPERMASAC。通过引入优先经验回放机制,解决了奖励值稀疏问题,同时利用重要性采样权重来抵消由于优先级分布更新而引起的偏差。进一步将算法扩展为分布式版本,从而扩展经验数据吞吐量并增加数据多样性。实验表明结果,在不同难度的多智能体任务中,DPER-MASAC的算法性能和智能体的实际表现均优于基线算法。图46幅,表5个,参考文献98篇。
其他文献
研究背景:世界各军事强国的军事心理学研究者都在寻找挑选出具有成长为优秀飞行员潜力的考生的有效方法。为了把人民空军发展为世界一流空军,必须立足我国情,深入研究招收飞行学员心理选拔系统。在具有直接淘汰权限的四平台的所有项目中,模仿操是最有助于专家判断考生学习飞行潜力的动态行为考察项目。但目前,该项目还存在动作难度标准不同、评价指标缺乏参照、考官对考生表现的评分策略不一致等问题,为实现新时代高性能战机对
计算机文档分析与理解技术在纸质文档电子化、场景理解及信息检索等方面具有广泛的应用。随着信息技术与教育教学的深度融合,智能教育成为研究的热点之一。教育文档自动分析与理解、自动阅卷系统等是智能教育的重要内容。教育文档通常包含大量结构复杂的数学公式,本文对其研究主要包括检测和识别。公式检测是将文档中的公式进行精确定位;公式识别则是将数学表达式图像转换为结构表达式,如La Te X数学表达式、图或符号布局
禅宗作为典型的中国化佛教,是中国传统文化的精髓,蕴含的美学思想丰盈,对我国传统审美观念、审美方式和审美体系的形成至关重要。禅宗美学亦对我国的艺术与设计领域影响深远,将禅宗美学的文化内涵与精神价值结合设计创作是新时代赋予设计师的要求和责任。南岳衡山也被称为寿岳,既拥有得天独厚的禅宗背景,又是五岳中唯一的产茶名山,集禅文化、寿文化、茶文化于一体。本土特产南岳云雾茶作为湖南省十大名茶之一,可谓历史悠久。
良好的夫妻关系是家庭幸福的根基,它承载着两个家庭的幸福。2003《婚姻登记条例》取消1个月的审查期后,因离婚手续及程序更为简易,我国的离婚率呈现大幅度上升的趋势。根据民政部门的相关数据显示,在我国离婚率居高不下的背景下,离婚原因大多为冲动、草率而离婚。为了遏制夫妻间冲动离婚、草率离婚、降低我国离婚率,近年来我国各地基层法院不断改革家事审判模式,在审判活动中着重区分死亡婚姻和危机婚姻,对非死亡婚姻可
近年来,硅基光子学发展迅速,由于硅材料资源丰富,且与传统CMOS工艺兼容,使得光电集成成为可能。电光调制器是光通信、光互连和光信号处理的核心器件。大规模光电集成要求光电子器件的结构紧凑,所以光电子器件的尺寸应尽可能的小。微环谐振腔作为光学中最经典的光学结构之一,只由环形波导和直波导组成,而且不需要腔面,结构简单,尺寸微小,所以基于微环谐振腔结构设计的硅基微环电光调制器可以支持大规模光电集成,应用领
积极心理学是一门致力于激发个体自身潜在的积极力量和优秀品质的学科,该学科的主要研究内容——积极情绪体验、积极人格特质及积极社会组织系统,可以为高中思想政治课教学的发展和创新提供新思路,为实现素质教育的目标、挖掘个体的个性潜能提供新途径。当前为适应教育改革的不断推进,高中思想政治课虽然在不断调整,但仍有部分遗留问题尚未解决,如教育理念、教学方法、教师综合素质等方面都有待改进,同时教学环境中也存在着部
目的:基于医保政策导向下探讨中成药的合理使用情况以及具体策略。方法:主要运用功能分析法、文献研究法、实践法等研究方法并结合医院三个科室中成药使用情况以及价格开展探讨,来研究、分析在医保政策导向下中成药合理使用策略。结果:医保政策下,医院中成药使用逐渐趋于合理,但仍然存在着诸如中成药与西药占比不够合理、高价类药品占比较高等问题,这可能会对中成药物的合理使用产生影响。结论:医保政策导向下中成药物合理使
随着我国综合国力的不断提升,各行各业对于安全要求也越发严格,振动作为安全检测的一个重要指标,在大型建筑物结构健康监测、周界安防、地震监测、水下声音信号探测等领域发挥着重要的作用。振动传感器的应用有效保护了人们的生命财产安全,然而随着检测环境越来越复杂,传统压电振动传感器无法满足当前复杂的应用场景。以光纤作为传感介质和信息传输介质的传感器因其具有体积小、耐腐蚀、抗电磁干扰、易于复用、探测灵敏度高等优
在电子商务、即时通讯等技术的不断发展下,人们更愿意从数字方式获得商品的资讯及体验,从而做出购买决定。为了将品牌的产品资讯整合起来,许多企业、品牌爱好者或第三方团体都建立了一个品牌社群,为品牌爱好者建立一个以品牌为中心的社会网络。通过对虚拟品牌社区的分析,可以看出,虚拟品牌社区是一种企业与用户共同创造价值的交流场所,商家可以在这里与顾客进行交流,获得对商品的意见与回馈,并吸取最新的研发理念,符合用户
由于人类的各类活动使大气中二氧化碳浓度不断升高,空气污染问题日益严重,二氧化碳的减排增汇成为可持续发展中的重要内容。城市绿地被誉为“城市之肺”,是城市生态系统中不可或缺的天然碳汇,其生态功能一直受到城市规划者和相关学者的重视。本研究从公园城市首提地成都市区西、南、北三个方位选择出3个植物群落具代表性的城市综合公园为研究区域。调查分析公园内48个植物群落样地的结构、类型、多样性、树种组成、树木规格等