基于强化学习的足式机器人控制方法研究

来源 :陕西科技大学 | 被引量 : 1次 | 上传用户:gaolch013
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
足式机器人由于其灵活性具有广泛的应用场景,但是其运动控制较为复杂,传统的方法对机器人软硬件的精确度要求非常严格,导致成本过高。因此本文希望借助深度强化学习(Deep reinforcement learning,DRL)这一领域的算法,让机器人可以通过学习找到适合自身结构的控制方法。本文将强化学习算法与机器人相结合得到任务导向型机器人框架,并在该框架内提出机器人行走任务模型,然后对强化学习算法进行深入研究提升性能,最后搭建实验环境并测试,主要工作可以总结为如下几个方面:(1)改进了 SAC(Soft actor critic)算法。采用分段浮动调节因子代替原有的固定调节因子,在训练过程中动态的调整目标函数中策略熵的比重,仿真结果表明,性能相比原始SAC算法提高了 7.7%。(2)提出了新的DRL算法SMPSAC。先利用模型预测控制(Model predictive control,MPC)优化SAC算法(改进后)输出的动作,得到中间算法MPSAC,再采用策略熵改进MPC的目标函数,弱化MPSAC中的模型误差带来的负面效果,得到最终算法SMPSAC,仿真结果表明,算法SMPSAC相对原始SAC性能提升了 20%。(3)设计并搭建机器人测试平台。平台包括:使用3D打印的组件组装的4足机器人,机器人状态检测装置和复位装置。测试平台满足DRL算法的要求,机器人和学习的目标也可以较为方便的更换。(4)四足机器人行走测试。使用SMPSAC算法让真实环境下的机器人从零学会走路。本文不仅提出了新的DRL算法,也在真实环境下证明了只要设定目标,给予合适的奖赏,便可以让机器人朝着目标不断进步,为低成本的足式机器人的运动控制提供了一种解决方案。同时未来也可以在DRL算法与实验环境不变的条件下更改机器人学习的目标,简化了机器人的设计流程。
其他文献
安全生产是保护劳动者安全健康,保证国民经济持续发展的基本条件。然而,建设工程施工现场充斥着大量的安全风险因素,这些不安定因素随时都有可能导致事故的发生,对人民的人身安全和财产安全造成巨大危害。尽管我国已颁布了一系列有关建筑安全生产和管理的法律法规,但由于受到诸多现实问题的阻碍,安全生产的形势依然十分严峻,引起了人们对于建设工程安全风险管理的高度关注。本研究以政府的视角,选择了建设工程项目安全风险为
学位
传统的障碍物探测主要是采用一些非视觉性器件,这些传感器在抗干扰能力方面突出,并且可以长时间工作,但是也存在一些缺点。本文提出一种基于Bayes推理的激光和视觉地图层面融
近年来,随着非线性负载的在工业生产中的大量使用,电能质量的问题变得日益突出。目前已经产生了多种针对电能质量的电力设备,有源电力滤波器(active power filter,APF)已经成
研究背景:腰椎管狭窄症是一种十分常见的临床疾病,好发于中老年人。手术治疗腰椎管狭窄症存在损伤马尾神经或神经根的风险,故医生进行椎管扩大及神经根减压手术时,有时因顾虑到神经损伤的风险而无法达到彻底减压的目的。神经电生理监测技术在术中可以客观评价马尾神经或神经根的功能状态,并且可以避免或减少不必要的神经损伤。本研究拟在腰椎管狭窄症患者进行腰椎减压融合手术时,监测体感诱发电位(SEP),评估手术减压的效
目的探究神经电生理监测在腰椎手术中的临床应用价值。方法选取2015年3月-2015年6月我院收治的60例腰椎疾病患者,且经诊断60例患者将进行腰椎手术,将60例患者随机平均分为对
本文提出了一种通过改变喇叭张角段脊长度的方式,实现当喇叭天线的张角段长度小于最低工作频率的1/2波长时天线仍能良好地匹配。基于上述方式,仿真设计了喇叭天线能够在SCX波
相比野外探索及崎岖地形运输,室内及城市服务场景逐渐成为四足机器人的主要应用场景,而该场景更适合体型小巧、操作简易的中小型四足机器人。但是中小型机器人由于体型限制难
近年来,在工业产业的优化升级下,传统数控加工工艺俨然无法满足以技术为驱动的发展趋势,这就必须对数控工艺设计进行优化,提高数控应用性能。对数控加工工艺进行分析,找出数
<正>对于《陋室铭》,我的教学目标一向不过是:让孩子们感受到刘禹锡的"穷则独善其身",敬其不慕名利、安贫乐道、精神高洁。但是这一次,孩子们在质疑阶段竟一口气提出了一系列