论文部分内容阅读
多智能体系统是分布式人工智能的一个典型问题,是由多个可计算的智能体组成的集合,它能协调一组自主体的行为(知识、目标、方法和规划等),以协同地动作和求解问题。RoboCup,即机器人世界杯足球赛,融合了自主机器人的设计、多智能体的合作与协调、决策调度、实时推理、机器人学和传感器融合等多个领域的技术,已经成为研究多智能体系统的一个标准实验平台。由于机器人足球仿真比赛具有动态实时性、对抗性、信息不完整等特点,自主智能体的学习和多智能体的协作已经成为该领域研究的主要方向。
本文以RoboCup仿真比赛为背景,进行了基于强化学习方法的多智能体之间的协作研究。主要的研究工作包括:
(1)针对RoboCup仿真系统中多智能体的协作问题提出了特定状态下的多智能体强化学习方法。传统的强化学习方法是基于单个智能体的,而本文中的多智能体强化学习方法是分层的强化学习,多个智能体同时进行学习,进而得到最优的联合动作策略。在进行学习之前进行区域划分,依据球所在区域的不同进行不同的动作选择,减少动作状态空间,降低了学习复杂度,同时也有效地实现了RoboCup仿真系统中球员间的协作。
(2)将在策略强化学习方法—Sarsa算法应用到RoboCup仿真比赛的子任务3vs.2的keepaway平台,研究3个智能体间的动作协作,以保持较长时间的控球权。由于去掉了仿真系统服务器对球员的一些限制,因此使得球员的动作学习和选择体现在球员之间的协作上。通过与随机策略下控球时间相比较,可以发现经过强化学习后的球员具有更长的控球时间。