【摘 要】
:
多智能体协作一直是人工智能的研究热点,有助于解决人类社会的许多问题。由于近些年来深度强化学习展现出的惊人决策能力,利用其解决多智能体协作问题成为热门,并诞生了多智能体深度强化学习这一研究方向。值分解是多智能体深度强化学习的主流方法,可以在环境平稳性和智能体拓展性之间取得平衡。但现有的一些值分解式方法没有充分利用历史轨迹进行学习,也忽视了智能体策略网络的重要性。因此,本文针对基于多智能体值分解深度强
论文部分内容阅读
多智能体协作一直是人工智能的研究热点,有助于解决人类社会的许多问题。由于近些年来深度强化学习展现出的惊人决策能力,利用其解决多智能体协作问题成为热门,并诞生了多智能体深度强化学习这一研究方向。值分解是多智能体深度强化学习的主流方法,可以在环境平稳性和智能体拓展性之间取得平衡。但现有的一些值分解式方法没有充分利用历史轨迹进行学习,也忽视了智能体策略网络的重要性。因此,本文针对基于多智能体值分解深度强化学习设计高效的多智能体协作算法这一任务,主要进行了以下工作:(1)本文提出了一种基于竞争网络结构的多智能体值分解深度强化学习算法——多智能体多步竞争网络(Multi-Agent Multi-Step Dueling Network,MMDN),将环境状态估计和动作评估解耦,在训练阶段利用全局状态信息学习状态值,利用观察信息学习优势值,以此提高个体动作值函数的表达能力。利用多步时间差分方法通过联合动作值函数计算时间差分目标端到端地训练智能体分散式策略,并引入-回报权衡估计偏差和多步采样导致的方差。在一组具有挑战性的多智能体协作场景中的实验结果表明了MMDN的有效性。(2)本文还提出了一种基于注意力网络的多智能体值分解深度强化学习算法——多智能体协作意愿网络(Multi-Agent Collaborative Willingness Network,MACWN),对智能体网络的建模进一步加以改进,将智能体协作的动机拆分为行为效用和协作意愿,行为效用表示智能体自我行动的价值估计,主要依赖于智能体自身的状态,协作意愿表示智能体与同伴智能体协作的意愿,主要依赖于周围同伴智能体的状态,行为效用和协作意愿共同决定智能体的策略输出,因此不同的协作意愿可能会改变智能体最终执行的动作。MACWN同样利用引入-回报的多步时间差分方法通过联合动作值函数计算时间差分目标端到端地训练智能体分散式的策略。实验结果表明了MACWN的性能优于MMDN。
其他文献
SLAM(Simultaneous Localization and Mapping)技术作为一种切实可行的机器人定位与建图技术,能使机器人快速熟悉周围的环境,有助于实现机器人的自主化和智能化。单目摄像头由于其采集的数据量较小、安装方便、价格低廉等优点,被广泛应用在视觉SLAM中。但是,单目摄像头无法获得图像中像素点的深度,而目前的深度估计方法普遍存在计算量大,推理时间长的问题;同时ORB(Ori
在“中国制造2025”的背景下,我国制造业掀起了以机器人智能化为核心的研究浪潮。六自由度机械臂因为其可靠性高、通用性强等特点在制造业中被广泛运用,可是由于机械臂所在的工作环境里存在诸多不确定的因素,如何为机械臂规划出一条从起点到终点的无碰撞路径是机械臂研究方向的重难点问题。针对这一课题,本文以六自由度机械臂为研究对象,提出一种结合改进人工势场算法(Artifical Potential Field
蔡氏电路是一个典型非线性电路,其内部充满不确定性,可以产生丰富的混沌现象。混沌现象自提出以来就受到广泛关注,其在信息科学、生命科学、经济学、航空航天等领域都有重要应用。蔡氏电路在混沌理论和非线性电路之间建立联系,虽然此电路结构简单,但以其为控制对象,研究控制策略对电路中的不确定性和混沌现象进行补偿和同步具有重要意义,有利于混沌现象在各类电路系统中的工程应用。此外,关于不确定性控制策略的硬件电路设计
多智能体系统是一类具有复杂的系统内通信关系和个体计算决策能力的智能系统,该系统通常面向复杂的应用场景,用以满足特定的功能要求,同时采用分布式设计思路来应对可能出现的系统问题。在编队、集群等依赖协同控制的场景,由于具备不依赖中央控制和全局通信的优点,基于多智能体系统的协同控制方法得到了广泛应用,一致性控制是其中尤为重要的部分。本文结合多智能体系统一致性控制的具体场景要求,开展了多智能体系统的理论模型
随着“中国制造2025”计划的提出,国内的机器人技术与产业都得到了飞速发展。同时也对机器人的各项性能提出了新要求。在这其中,串联机器人的奇异位形规避一直是串联机器人研究领域的热点问题。本文基于六自由度串联机器人的奇异位形分析,对奇异位形下的轨迹规划进行了一定的研究,主要内容如下:首先,阐述串联机器人相关数学理论基础,为后面机器人的运动分析及轨迹规划做必要准备。其次,运用改进的D-H法对机器人建模,
近年来,汽车行业的发展变革是科技进步的真实写照,智能化的出行方式已是未来的发展方向。车辆场景理解技术作为提高车辆智能化水平的前提和实现自动驾驶的“关键一步”,在辅助驾驶乃至自动驾驶领域中备受关注。而如何在有限的车载计算空间内为智能汽车提供充足的视觉信息,仍然是具有挑战的问题。语义分割和目标检测是实现车辆场景理解的两大核心任务,得益于深度学习的发展,目前针对单一任务的算法模型相继涌现,但应用在车辆场
柔性应变传感器具有轻质、柔性、可弯曲、可贴附、曲面兼容性等众多特点,可应用于柔性穿戴器件,在人体运动监测、医疗健康以及人机交互等领域发挥重要作用。离子型应变传感器是其中的重要一类,它是由两侧的电极层和中间的聚电解质层所组成的三层结构器件,通过内部可移动离子在外部应力作用下的定向移动,从而在两侧电极上产生电势差,实现力-电能量转换以及对于应变的感知。离子型应变传感器具有对不同方向的应变的感知能力以及
自工业机器人问世以来,工业生产格局发生了很大变化。随着工业场景的复杂化以及任务的多样性,传统的六自由度工业机器人已不能完全满足需求。相比于传统六自由度机械臂,带有冗余关节设计的双臂七自由度机器人具有较好的容错性、柔顺性和避障能力,也提升了机械臂的工作效率。双臂协作也使机器人的作业能力得到巨大提升,双臂机器人的协作控制成为一个重要内容。机器人应用开发涉及到底层的数值计算、上层应用开发以及机器人位置控
我国应急管理体系建设时间尚短,应急管理基础支撑技术发展还比较薄弱,防范化解重大风险、高效应对重特大自然灾害仍然面临巨大的挑战。以“大智移云”为特征的新一代信息技术的快速发展,给应急管理的信息化、智能化和科学化提供了新的机遇和挑战。为此,应急管理部在《应急管理信息化发展战略规划框架(2018-2022年)》中明确提出,要利用大数据、人工智能、机器学习等新一代信息技术提高我国重特大自然灾害风险感知、监
拉曼光谱以其独特的分子光谱特性常被用于医疗、环保、安防、质检等多个领域。随着激光技术和制造业技术的发展,拉曼光谱技术越来越成熟,以该技术为基础的光谱仪也越来越多样化。为了满足户外实时检测、高温高压等特殊环境下的操作需求,手持式拉曼光谱仪应运而生。然而,目前已有的手持式拉曼光谱仪多存在有效信号微弱、应用范围窄、产品价格昂贵等不足,影响用户使用体验,因此本文意在研制一款成本较低、性能优良的高通量手持式