多Agent强化学习研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:ctty1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是agent在与环境交互中通过“试—错”的方式以最优化长期收益为目标的机器学习方法,是介于监督学习和非监督学习之间的学习方式,它以其不需要事先了解环境以及不需要事先训练的优点成为拥有广阔应用前景的研究热点. 多agent强化学习是强化学习和多agent系统的结合,是解决很多分布式应用问题的理想方法。由于多agent环境的复杂性,经典单agent的方法无法直接的应用于其中,多agent强化学习需要能够处理agent间互相影响的新方法。多agent强化学习的算法可以分为三类:基于信息交换的算法、基于博弈论平衡解的算法、基于最优反应的算法,后两种是真正意义上的多agent强化学习算法。基于平衡理论的算法以博弈论中的平衡解为出发点和学习目标,具有理论基础深厚,算法有一定程度的收敛保障,但一般采用混合平衡解指导策略选择,对动作选择的指导意义不大,而平衡解作为学习目标的合理性以及多平衡解问题也是其公认的缺点,这类算法的代表有Nash—Q、Friend—and—foe Q、Ce—Q等;基于最优反应的算法把其他agent作为动态外部环境的一部分,建立动态环境的模型,根据模型调整自身策略,该算法始终以自身长期收益为追求目标,紧扣强化学习的基本出发点,但是此类方法的在收敛性方面没有保证,该类算法的代表有NSCP和WoLF—IGA算法。 本文在探讨这几类算法之后把元博弈和元平衡理论引入多agent强化学习,元平衡充分考虑其他agent可能策略的的特性,具有单纯平衡策略的形式,并且计算简单高效,是适合于多agent强化学习的平衡.我们提出基于元平衡(meta—equilibrium)的双agent强化学习的meta—Q学习算法。实验结果显示meta—Q学习具有优良的性能.
其他文献
随着信息技术的飞速发展,互联网上的电子文档已经成为一个巨大的信息源.在这个巨大的信息源面前,人们自然希望利用成熟的机器学习技术对感兴趣的信息进行查找、检索和分析.文本正
目前国内外的敌我识别系统大都存在如下问题:一次问答只能识别一个目标;必须及时应答任何武器的询问;安全性较差。针对这种状况,本文首次将数字签名应用于敌我识别系统,提出一种基
计算机取证的理想状态是在犯罪分子作案的同时捕获证据。对这一理想状态的追求导致实时取证(Real Time Forensic)的研究成了目前计算机取证领域研究的热点和难点之一。实时取
本文围绕主动队列管理算法的研究热点,在“利用数学模型评价RED算法的性能”和“设计基于控制论的AQM新算法”两方面做了深入地研究。提出了利用扩充的排队模型评价RED算法在
现代科学研究具有连续性和协同性等方面的特征,对高性能计算能力和海量数据处理能力要求越来越高。因此,用网络技术把各种资源聚合起来,实现跨地域、跨部门的共享和协同计算,是现
二十一世纪,人类迈入了“信息爆炸”时代。在这个时代,信息靠多种形态信息媒体透过复杂的信息网络系统传递。互联网技术的蓬勃发展,把信息的交互传递推向至高点。在纷繁杂乱的信
随着XML(eXtensibleMarkupLanguage)成为因特网上数据表示和数据交换的标准,如何进行高效的、满足特定源数据和目标数据模式的数据交换成为研究热点。目前提出的XML数据查询语
随着网络技术的飞速发展,网络安全问题已经逐渐引起人们的关注,在网络安全中,防火墙成为建立网络边界、加强网络安全的重要设备。过去一段时间,防火墙开发主要有两种解决方案,其一
日益增加的网络安全要求,不断地推动网络安全技术的发展。尽管每一种技术都有不可替代的优点,但是固有的缺点却制约了实际检测应用中的效果,技术融合是提高入侵检测系统性能
目前,物联网技术已经广泛应用于交通运输、物流以及智慧城市等领域中,在日常生活、工业生产中发挥着重要的作用。EPCglobal框架的主要目的,是在全球范围内建立和维护EPC网络,