基于增强学习的2D双足机器人步行控制系统研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:chenan110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
2D双足机器人步行控制是机器人研究领域关键性的基础研究问题之一。对于实际的双足机器人由于其结构复杂一般难以为其建立精确的动力学模型,所以传统的基于模型的分析法很难取得较好的控制效果。随着近些年来智能算法的兴起,研究者们逐渐在双足机器人步行控制中引入增强学习算法,但现行的基于增强学习的步行控制系统或要加入参考步态而不能完全脱离机器人的动力学模型,或仅能处理离散状态空间和动作空间的情形无法实现精确的控制。因此,本文提出了一个基于均值-异步的优势动作-评论(Mean-Asynchronous Advantage Actor-Critic,M-A3C)算法的2D双足动态步行学习方法,该方法无需引入参考步态并且能直接处理连续空间问题。在分析了2D双足机器人动态步行过程的基础上,本文对原始的最简行走模型进行了改进提出了基于脉冲推力和髋部驱动的带伸缩膝关节的最简行走模型,并获得该模型的一个一周期步态。依据该抽象的行走模型,本文设计制作了一个带伸缩膝关节的2D双足机器人及其在物理仿真平台中的虚拟版本以用于测试本文提出的动态步行学习方法。本文提出的动态步行学习方法的核心是M-A3C算法,该算法是本文基于异步的优势动作-评论(Asynchronous Advantage Actor-Critic,A3C)算法改进而得来。动态步行学习方法主要内容是:采用依据M-A3C算法实现的神经网络以机器人状态向量为输入、以关节驱动动作向量为输出,先对物理仿真平台中的虚拟机器人进行步行训练,神经网络在训练完成后被迁移到真实物理环境中的机器人上对其步行进行控制。该方法借助与真实机器人物理参数相同的虚拟机器人进行训练,既降低了训练成本又提高了训练速度。本文在最后结合带伸缩膝关节的2D双足机器人和动态步行学习方法实现了一个2D双足机器人步行控制系统,完成了对实际机器人的步行控制并使该机器人产生了一个二周期步态。同时,通过四组实验对含有长短期记忆单元的神经网络结构和一般全连接神经网络结构两种M-A3C实现方法进行了对比分析,验证了动态步行学习方法的可行性和含有长短期记忆单元的神经网络的优越性。
其他文献
根据应急物资管理中存在的问题和实际需求,设计应急医疗救援物资信息管理模块。模块利用无线射频、IEEE802.15超短距离无线通讯、超宽带宽短距离无线通讯、传感器等技术,实现
本文对美国肯特州立大学时尚学院(简称肯特时尚学院)的人才培养模式进行了深入探讨,此种模式以培养学生的综合能力作为核心驱动力,在人才的培养目标上定位清晰;并把融合演进
学生学业发展的公平是教育结果公平的基本表征和关键侧面,学业发展公平的实现对实现教育结果公平具有核心意义。时下实现学业发展公平的主要目标是确保每个学生学业合格。从
<正>21世纪以来,世界社会经济发生了巨大的变化,人们的工作方式也逐渐发生了改变。随着社会的发展,工作形塑成为西方组织行为学和人力资源管理领域研究的一个新领域。所谓工
钴期货或刺激对钴的投资需求,而混合动力车的推广将增加钴在电池行业的用量,但目前钴消费量的增加仍需拓展传统市场。国内市场的精炼钴产量取决于国际钴市场的钴矿和中间产品
目的分析老年腹股沟疝应用腹腔镜腹股沟疝修补术治疗的效果。方法随机选择2015年1月-2016年12月在本院接受治疗的老年腹股沟疝患者84例参与研究,随机平均分成2组,对照组利用
针对阴极试验系统中可靠性和寿命考核的需求,对程控电源进行自动控制,通过对各种测控方式进行比较,基于虚拟仪器系统结构体系(Virtual Instrument Software Architecture,VISA
由中国音乐家协会广东分会、星海音乐学院民乐系和广州市扬琴爱好者协会联合主办的《广州市第五届扬琴花会》,于二月十七日下午二时半,在星海音乐学院音乐厅举行。这届扬琴花
20世纪90年代以来,我们的新闻改革取的了长足得进步,电视新闻报道的人性化趋势不断增强,并且越来越明显。电视媒体关注受众需求,实现了报道内容的平民化和报道方式的平民化,
本文根据水准仪磁致误差检定装置的实际需要,在Visual C++编程环境下基于NI-VISA标准接口开发了可编程电源的控制程序,以实现对电源输出电流的精确控制。