论文部分内容阅读
2D双足机器人步行控制是机器人研究领域关键性的基础研究问题之一。对于实际的双足机器人由于其结构复杂一般难以为其建立精确的动力学模型,所以传统的基于模型的分析法很难取得较好的控制效果。随着近些年来智能算法的兴起,研究者们逐渐在双足机器人步行控制中引入增强学习算法,但现行的基于增强学习的步行控制系统或要加入参考步态而不能完全脱离机器人的动力学模型,或仅能处理离散状态空间和动作空间的情形无法实现精确的控制。因此,本文提出了一个基于均值-异步的优势动作-评论(Mean-Asynchronous Advantage Actor-Critic,M-A3C)算法的2D双足动态步行学习方法,该方法无需引入参考步态并且能直接处理连续空间问题。在分析了2D双足机器人动态步行过程的基础上,本文对原始的最简行走模型进行了改进提出了基于脉冲推力和髋部驱动的带伸缩膝关节的最简行走模型,并获得该模型的一个一周期步态。依据该抽象的行走模型,本文设计制作了一个带伸缩膝关节的2D双足机器人及其在物理仿真平台中的虚拟版本以用于测试本文提出的动态步行学习方法。本文提出的动态步行学习方法的核心是M-A3C算法,该算法是本文基于异步的优势动作-评论(Asynchronous Advantage Actor-Critic,A3C)算法改进而得来。动态步行学习方法主要内容是:采用依据M-A3C算法实现的神经网络以机器人状态向量为输入、以关节驱动动作向量为输出,先对物理仿真平台中的虚拟机器人进行步行训练,神经网络在训练完成后被迁移到真实物理环境中的机器人上对其步行进行控制。该方法借助与真实机器人物理参数相同的虚拟机器人进行训练,既降低了训练成本又提高了训练速度。本文在最后结合带伸缩膝关节的2D双足机器人和动态步行学习方法实现了一个2D双足机器人步行控制系统,完成了对实际机器人的步行控制并使该机器人产生了一个二周期步态。同时,通过四组实验对含有长短期记忆单元的神经网络结构和一般全连接神经网络结构两种M-A3C实现方法进行了对比分析,验证了动态步行学习方法的可行性和含有长短期记忆单元的神经网络的优越性。