基于深度强化学习的多智能体协同研究

来源 :太原理工大学 | 被引量 : 0次 | 上传用户：huangzhijian2006

【摘要】

：

【作者】

：

黄子蓉

【机构】

：

太原理工大学

【出处】

：

太原理工大学

【发表日期】

：

2021年01期

【关键词】

：

混合动作值函数深度强化学习多智能体合作个体利益团队利益历史信息优先经验回放

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来随着科技的进步,深度学习和强化学习的发展迎来空前盛况。深度强化学习技术逐渐成为诸多领域的热点技术。作为多智能体领域的重要研究内容,深度强化学习以其强大的特征提取能力提取智能体周边信息和环境信息,以其强大的感知探索能力感知适应复杂多变的动态环境,从而做出最优决策。其中被诸多学者广泛关注的问题是基于深度强化学习的多智能体协同,其旨在研究智能体如何在复杂多变的环境中通过有效协同控制达到整体性能最优。与此同时,这一智能协同技术也被应用于越来越多的领域,技术日趋成熟,如无人机对战、无人机勘探和飞机编队等。因而无论从理论价值还是实际应用来说,基于深度强化学习的多智能体协同研究都具有极强的研究意义。多智能体协同系统中,智能体如何有效平衡个体局部利益和团队全局利益是非常重要的。另外如何有效利用历史信息提高经验利用率,也是多智能体协同的一个关键研究点。本文针对上述问题进行深入研究,结合已有的基于深度强化学习的多智能体协同算法,主要完成以下工作:（1）针对平衡个体利益与团队利益问题,本文提出一种利益驱动的混合动作值函数算法（Hy CMA-Q）。该算法同时考虑了团队联合动作值函数和个体动作值函数。然后用单个智能体融入团队的程度α自适应地调整联合动作值函数和个体动作值函数的比例,以平衡团队利益和个体利益。算法适用于具有连续型和离散型的状态动作空间的环境。实验表明,本算法在合作、竞争和混合环境中都具有较优的性能。（2）针对如何有效提高历史经验利用率问题,本文提出基于历史经验的多智能体协同算法（Hy CMA-H）。该算法修改了用于数据采样的经验回放缓存池,在缓存池中引入历史信息,如上一时刻的状态和动作,帮助智能体更好地决策。实验证明,引入历史信息在训练前期可以加快模型收敛速度,同时相较于基线模型,本算法使团队获得了更大收益。（3）针对多智能体协同训练中存在的经验缓存机制构建、回放和经验利用问题,本文提出一种基于优先经验回放的多智能体协同算法（PEMAC）。该算法在多智能体系统中引入优先经验回放思想,训练过程中算法基于TD误差求出的比例优先级,对经验数据进行重要性标记,每次采样均采取优先级较高的经验数据更新网络。实验结果表明该算法提升了训练数据的质量,从而提升了模型收敛速度和学习效率。且该算法在合作寻宝和漫游者-发射塔环境中的表现性能均优于基线算法。

其他文献

基于视觉检测的机器人按需求搬移工件系统研究

抓取和放置工件是工业环境下机器人系统的主要任务之一,视觉控制是机器人系统的重要控制手段,采用图像技术对工件进行识别在现代化智能生产线上具有重要的意义。本论文主要以合页为例进行按需搬移任务,可用于机器人打磨前代替人工进行工件摆放,有助于提高机器人打磨生产线的自动化程度和生产效率。本论文主要对散乱堆叠工件的按需搬移过程进行研究,主要研究内容如下:（1）针对目前工业现场弱纹理堆叠工件识别困难的问题,提出

学位

视觉检测机器人工件搬移MCD虚拟调试模板匹配

《简·爱》与《呼啸山庄》叙事策略对比研究

《简·爱》（Jane Eyre）与《呼啸山庄》（Wuthering Heights）作为世界文坛上经典的两部现实主义代表作品，是由英国同胞姐妹作家夏洛蒂·勃朗特（Charlotte Bronte）和艾米莉·勃朗特（Emily Bronte）创作的，虽然说她们所处的社会环境背景与家庭生活背景都一样，但是在这两部文学作品创作过程中却有着明显的不同之处。前者《简·爱》在叙事策略上采用的是单一叙事者

期刊

基于迭代学习控制的城市交通子区边界控制方法研究

汽车保有量的迅猛增长造成城市交通供需关系的失衡,由此导致的交通拥堵范围日益扩大,已逐步发展成为区域性的拥堵问题。实践证明,新建交通基础设施或实行政策调控等措施都无法真正从根本上解决区域交通拥堵,因此寻求更加合理有效的交通信号控制策略成为研究区域交通拥堵的必然趋势。论文以“基于迭代学习控制的城市交通子区边界控制方法研究”为主题,首先对大规模路网进行了子区划分,并针对实际交通情况研究了在考虑随机扰动以

学位

城市交通系统边界控制迭代学习控制收敛性分析扰动非线性交通流

脑卒中不平衡数据集的分类算法研究

作为一种急性脑血管疾病,脑卒中已经成为我国第一大致死原因,早期防治和及时诊断对于脑卒中的预防、诊治和预后康复有着重要作用。近年来随着人工智能的不断发展,机器学习方法辅助医疗诊断可以很大程度上减少医生的诊断时间并提高医疗资源的利用率,因此引起了越来越多的关注。脑卒中患者的脑电信号（Electroencephalogram,EEG）和经颅多普勒数据（Transcranial Doppler,TCD）的

学位

不平衡脑卒中数据集分类变分自编码Gmean值隶属度函数支持向量机

宽度学习系统中不平衡分类与多模态分类问题的研究

随着机器学习与计算智能的快速发展,面向海量高维数据的神经网络研究成果不断涌现。2018年,华南理工大学陈俊龙教授团队提出一种宽度学习系统（Broad Learning System,BLS）的浅层网络结构。输入BLS的数据经过特征映射与稀疏字典的有效表示生成了映射节点,映射节点再映射生成增强节点。映射节点与增强节点共同组成的宽度平层,经岭回归广义逆的最优连接矩阵共同生成输出。BLS有简捷的网络结构

学位

宽度学习系统加权宽度学习系统堆栈宽度学习系统不平衡数据分类多模态数据分类

基于形式化的NC代码自动化检测方法的研究

近几年,工业物联网技术的兴起使得工控系统得到了进一步的发展。而数控机床作为工控系统中极为重要的设备之一,在车辆制造、航空航天等行业的生产中起到了不可或缺的作用,数控机床的工作是完全由数控（Numerical Control,NC）代码来进行控制的,NC代码的异常就会造成数控系统的异常。要实现对数控系统的保护,需要保证NC代码的正确。NC代码具有两个显著的特征:首先,NC代码由于数控机床种类众多而出

学位

数控安全NC代码文本分类形式化模型检测

基于重启随机游走与堆叠自动编码器的miRNA-疾病关联预测

microRNA（miRNA）是一种由约18-25个核苷酸组成的非编码RNA,参与细胞代谢、增殖、凋亡和发展等细胞生命过程,参与许多人类疾病的发生发展与治疗,成为多种细胞功能中的关键调控因子。然而已经发现的miRNA-疾病关联数量很少,限制了miRNA在疾病治疗领域的发展,研究miRNA-疾病关联在人类疾病研究与治疗领域具有重要的理论价值与应用意义。miRNA-疾病关联预测的计算方法主要包括网络方

学位

miRNA-疾病关联网络拓扑结构信息重启随机游走堆叠自动编码器Radam优化器

电梯运行状态非入侵式智能检测方法研究

我国是电梯生产和使用大国,随着电梯保有量持续增长,老旧电梯逐年增多,电梯困人故障和安全事故时有发生,严重影响了人民群众生命财产安全和经济社会发展稳定。而现阶段电梯的监管维保模式为定期模式,维保时间间隔相对固定,对于使用频繁的电梯,定期维保的频率低;而对于运行次数少的电梯,定期维保的频率又过高。为此,国务院办公厅下发了“国务院办公厅关于加强电梯质量安全工作的意见”,依法推进按需维保,推广“全包维保”

学位

电梯实时状态监测信息融合无迹卡尔曼滤波传感器自动矫正非侵入式

基于改进k-means分簇和灰狼优化的WSN路由算法研究

无线传感网络是大量传感器节点按照某种组网方式并通过无线通信而形成的网络,节点负责对监测对象的信息进行收集,然后将收集到的数据通过汇聚节点最终传输给用户。由于无线传感网络的成本较低,覆盖范围广和抗毁坏性强,所以被广泛应用于国防、医疗和家居等各个方面。网络中的节点有时会受到损坏或者在使用过程中电池能量用完,而且环境条件的限制人为去进行维护是不实际的,所以路由算法的设计在此时就起到了非常重要的作用,目前

学位

无线传感网络k-means优化灰狼优化路由分簇

基于高斯过程和混合模型的工控入侵检测技术研究

随着工业互联网、5G等新兴技术的发展,接入互联网的工业控制系统越来越多,工业数据传递的速度也越来越快,然而,互联网中存在的相关漏洞也在威胁着工控系统的安全。因此,保障其安全性避免被攻击是至关重要的。但是,由于工控数据具有维度高、冗余特征多的特点,导致现有的入侵检测技术依然存在着许多不足之处。而入侵检测性能优劣的关键在于是否采用了合适的分类算法以及是否根据数据集的特点进行了相应调整优化,因此,本文以

学位

入侵检测工控系统高斯过程灰狼优化高斯混合模型循环神经网络

基于深度强化学习的多智能体协同研究

其他学术论文