论文部分内容阅读
群体协同任务是动物界中一种普遍行为,这种协同的群体行为大大提高了动物在猎物搜索、捕食以及御敌等方面的作业效率。人类同样存在着类似于动物群体协同作业的任务或需求,并期望以一种智能化的方式得以实现。因此,对动物群体行为的仿生研究对人类开展群体智能的研究具有重要指导意义。Flocking集群协同控制算法是一种典型的基于动物群体行为仿生的群体控制算法,目前已有大量的关于基于Flocking集群协同控制算法的群体控制的研究,但对于群体与群体之间相互作用的仿生研究相当少。增强学习作为一种智能体自主学习算法,对提高人工群体(如:多智能体系统)的智能程度以及群体任务的作业效率具有潜在的价值。由于增强学习算法的智能性使得人工群体智能更加接近于生物群体智能。因此,本文主要的研究目标是针对动物界中典型的捕食行为:狼群捕食羊群,并基于增强学习与Flocking集群协同控制算法,对捕食过程中的狼群协同搜索以及狼群与羊群互抗进行仿生研究,并根据仿生模型建立多智能体协同搜索系统与多组群多智能体互抗系统。在多智能体群体协同搜索的研究过程中,本文主要研究自由区域下的多智能体搜索算法的非最优搜索问题,提出了一种基于增强学习的分布式多智能体区域协同搜索算法。为实现增强学习在多智能体协同搜索系统的应用,本文设计了一种γ-信息地图。基于γ-信息地图,本文将连续的区域搜索过程转化为离散的γ点遍历过程,并同时保证了无死区搜索。当智能体的通信覆盖整个目标区域时,通过学习整个区域的搜索过程,智能体能够获得全局最优搜索策略。在通信无法覆盖整个目标区域的情况下,智能体能够获得局部最优搜索策略;此外,基于本文所提出的搜索算法,智能体通过离线规划的方式可获得全局最优搜索路径,根据规划的路径实现最优的搜索。仿真结果表明,本文所提出的区域搜索算法所需时间接近最理论优值,并且区域搜索效率明显优于基于Anti-flocking的多智能体协同搜索算法。在多组群多智能体互抗系统中,通过对Flocking集群协同控制算法中的势能力的重新设计,实现对狼群与羊群互抗过程中的运动的模拟控制。另外,基于Flocking集群协同控制算法设计了一种羊群模型的躲避算法,实现了羊群模型协同地躲避捕食者并保持群体的完整性。本文设计了一种相对极坐标系,实现将连续的互抗环境离散化,并在这种离散的环境下,实现增强学习在群体互抗中的应用,构造出一种连续-离散的混合的多组群多智能体系统。基于分布式增强学习算法,实现了狼群的自主决策,仿真结果表明了该互抗系统的可行性。为了实现狼群之间中各单体之间在搜索与互抗过程中的学习经验的有效共享,加快学习算法的收敛速度,并减少传统的协同学习算法因经验共享而带来的通信量,本文提出了一种可变权值的分布式协同Q-learning算法,并在理论上证明了所提出的分布式协同增强学习算法的收敛性,最后通过仿真实验证明了算法的稳定性。