RoboCup中基于强化学习的多智能体协作研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户：hzwn001

【摘要】

：

多智能体系统是分布式人工智能的一个典型问题，是由多个可计算的智能体组成的集合，它能协调一组自主体的行为(知识、目标、方法和规划等)，以协同地动作和求解问题。RoboCup，即机

【作者】

：

张伟

【机构】

：

北京工业大学

【出处】

：

北京工业大学

【发表日期】

：

2006年期

【关键词】

：

机器人足球多智能体系统强化学习多智能体协作

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

多智能体系统是分布式人工智能的一个典型问题，是由多个可计算的智能体组成的集合，它能协调一组自主体的行为(知识、目标、方法和规划等)，以协同地动作和求解问题。RoboCup，即机器人世界杯足球赛，融合了自主机器人的设计、多智能体的合作与协调、决策调度、实时推理、机器人学和传感器融合等多个领域的技术，已经成为研究多智能体系统的一个标准实验平台。由于机器人足球仿真比赛具有动态实时性、对抗性、信息不完整等特点，自主智能体的学习和多智能体的协作已经成为该领域研究的主要方向。本文以RoboCup仿真比赛为背景，进行了基于强化学习方法的多智能体之间的协作研究。主要的研究工作包括： (1)针对RoboCup仿真系统中多智能体的协作问题提出了特定状态下的多智能体强化学习方法。传统的强化学习方法是基于单个智能体的，而本文中的多智能体强化学习方法是分层的强化学习，多个智能体同时进行学习，进而得到最优的联合动作策略。在进行学习之前进行区域划分，依据球所在区域的不同进行不同的动作选择，减少动作状态空间，降低了学习复杂度，同时也有效地实现了RoboCup仿真系统中球员间的协作。 (2)将在策略强化学习方法—Sarsa算法应用到RoboCup仿真比赛的子任务3vs.2的keepaway平台，研究3个智能体间的动作协作，以保持较长时间的控球权。由于去掉了仿真系统服务器对球员的一些限制，因此使得球员的动作学习和选择体现在球员之间的协作上。通过与随机策略下控球时间相比较，可以发现经过强化学习后的球员具有更长的控球时间。

其他文献

染色体图像信息处理方法研究

染色体是遗传物质的载体,它上面带有遗传因子,决定人体的形态特征和生理机能。无论是动物还是植物,其细胞核内的染色体,不仅具有一定的数目,而且还有一定的形状。染色体核型

学位

染色体核型模式识别遗传算法平均积分灰度轮廓模糊聚类

A Resilient Control Strategy for Cyber-Physical Systems Subject to Denial of Service Attacks:A Lead

期刊

Formation-Containment Control Using Dynamic Event-Triggering Mechanism for Multi-Agent Systems

期刊

Stochastic DoS Attack Allocation Against Collaborative Estimation in Sensor Networks

期刊

IoT-Enabled Autonomous System Collaboration for Disaster-Area Management