论文部分内容阅读
强化学习是agent在与环境交互中通过“试—错”的方式以最优化长期收益为目标的机器学习方法,是介于监督学习和非监督学习之间的学习方式,它以其不需要事先了解环境以及不需要事先训练的优点成为拥有广阔应用前景的研究热点.
多agent强化学习是强化学习和多agent系统的结合,是解决很多分布式应用问题的理想方法。由于多agent环境的复杂性,经典单agent的方法无法直接的应用于其中,多agent强化学习需要能够处理agent间互相影响的新方法。多agent强化学习的算法可以分为三类:基于信息交换的算法、基于博弈论平衡解的算法、基于最优反应的算法,后两种是真正意义上的多agent强化学习算法。基于平衡理论的算法以博弈论中的平衡解为出发点和学习目标,具有理论基础深厚,算法有一定程度的收敛保障,但一般采用混合平衡解指导策略选择,对动作选择的指导意义不大,而平衡解作为学习目标的合理性以及多平衡解问题也是其公认的缺点,这类算法的代表有Nash—Q、Friend—and—foe Q、Ce—Q等;基于最优反应的算法把其他agent作为动态外部环境的一部分,建立动态环境的模型,根据模型调整自身策略,该算法始终以自身长期收益为追求目标,紧扣强化学习的基本出发点,但是此类方法的在收敛性方面没有保证,该类算法的代表有NSCP和WoLF—IGA算法。
本文在探讨这几类算法之后把元博弈和元平衡理论引入多agent强化学习,元平衡充分考虑其他agent可能策略的的特性,具有单纯平衡策略的形式,并且计算简单高效,是适合于多agent强化学习的平衡.我们提出基于元平衡(meta—equilibrium)的双agent强化学习的meta—Q学习算法。实验结果显示meta—Q学习具有优良的性能.