基于确定性策略梯度深度强化学习的机器人轨迹规划研究

来源 :东华大学 | 被引量 : 0次 | 上传用户:mile999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的机器人运动控制依赖于针对具体对象的定制化逆运动学求解和轨迹规划,该过程需要人力的高度参与且缺乏通用性。尤其是当面向带有冗余自由度的机器人时,该过程异常复杂。近年来,深度强化学习在图像处理、语义理解和语音识别等多个领域带来的变革性影响,极大地激发了研究人员们将其拓展到机器人技术领域的兴趣,期望能够通过深度强化学习策略使机器人像人类一样自主学习和优化完成各类任务的技巧。本文将深度强化学习策略应用到机器人运动控制任务当中,使得机器人运动轨迹的生成不再依赖于传统的逆运动学求解方法,并能针对不同的任务自主规划最优运动轨迹。主要工作如下:(1)针对由于仿真环境与实际环境的差异性导致算法需要实物训练、策略迁移、安全约束等冗繁工作的问题,引入数字孪生技术的理念,搭建了1:1还原机器人实物对象运动学的虚拟孪生系统。该虚拟孪生系统使得仿真环境中的训练结果能直接应用于实物机器人对象的运动轨迹生成。(2)为提高深度强化学习算法的学习效率和收敛速度,提出了两种双记忆库结构改进方法。在第一种方法中,设计了一种local-to-global采样策略,在训练前期利用高奖励数据激励智能体的策略学习;在第二种方法中,构建了一种专家引导的策略学习模式,为算法早期训练提供额外的高质量数据促进学习效率。(3)一个完整的机器人运动控制任务传统上通常规划为多个连续的子任务,以提升避障的灵活性或动作的流畅性等。这一处理方式为擅长于单一过程的深度强化学习策略的实施带来不小的挑战。本文针对该类在时序上具有先后顺序的连续多过程任务,提出了一种嵌套式结构的深度强化学习框架。(4)为全方位提升深度强化学习算法的训练效果,提出了两种针对奖励函数的改进方法。在第一种方法中,针对轨迹规划中对机器人末端执行器位置和姿态的同步控制需求,设计了一种可平衡位置和姿态控制权重的复合式奖励系统;在第二种方法中,针对难以人为地构建理想显式奖励函数的问题,设计了一种模糊反馈奖励机制。该机制通过模糊推理避免了构造显式奖励函数,并采用多层感知机建立了从状态到奖励的准确且高效的直接映射。(5)针对基于确定性策略梯度的算法在动作探索性上存在不足的问题,提出了一种带延展性探索与评估功能的确定性策略梯度深度强化学习算法。该算法相比基于随机策略梯度的算法,具有更低的样本规模需求,更小的计算资源开销,但又具备能匹敌随机策略梯度的强大的探索性能。此外,在上述工作中还开展了大量的具有针对性的对比实验,实验结果证明了所提出方法的可行性、有效性和优越性。
其他文献
<正>近年来,在“互联网+”和大数据的时代背景下,STEAM教育理念广泛运用,其学科融合性、体验性、趣味性、情境性、合作性、人文性等核心特征在本质上与学前教育是贴合的,培养创造型人才也是国家社会所需要的。作为幼儿教育者的我们,应顺应目前幼儿园课程建设发展的大方向,将目光聚焦于STEAM课程设计的实践操作层面,探寻STEAM教育在学前领域落地生根的设计路径。本文将以航空飞行器主题为例,从软硬件打造出
期刊
为研究纤维织物增强高延性混凝土(TR-HDC)加固钢筋混凝土短柱的抗剪性能,设计了6根钢筋混凝土柱,包括2个对比柱和4个TR-HDC加固柱.通过低周反复荷载试验,对比分析剪跨比、纤维织物层数对试件破坏形态、变形、承载力和耗能能力的影响.结果表明:采用TR-HDC加固钢筋混凝土短柱,可显著提高其抗剪承载力;TR-HDC与原混凝土柱协同工作性能良好,加固后的混凝土柱的变形、承载力和耗能能力明显提高;增
期刊
随着我国基本步入深度老龄化社会,膝骨关节炎逐渐成为危害中老年人身体健康的重大隐患之一。相较于其他慢性疾病,膝骨关节炎的康复治疗更加强调患者的院外自我管理,通过自主采取干预措施来遏制病情的发展,提高生活质量。然而大多数患者因缺乏专业的康复知识导致自我管理效果不尽人意,无法有效延缓病程。得益于当前移动医疗的飞速发展,医患间的信息交流不再受到物理空间的限制,膝骨关节炎患者的自我管理有了新的可能。因膝骨关
学位
在数字化的融媒体时代,以《人民日报》自1949年建国以来至2019年间纸质报纸刊印字体为研究对象,探索其刊印字体与时代背景、国家形象之间的关系,进一步探讨政治、经济、文化等因素对《人民日报》刊印字体应用产生的影响。课题研究具体以抽样和典型个案调查法为主要方法,抽取上述研究时段内每隔五年的元旦报纸版面,对《人民日报》七十年间报纸刊印的字体进行研究,主要包括报头、标题、正文、字距、行距、色彩、版面等字
学位
胶粘剂的应用十分广泛,但目前的胶粘剂难以同时满足湿粘附性能和生物相容性的要求,解决潮湿环境下的粘附难题仍是一项巨大的挑战。本论文从海洋生物实现水下附着的机理获得启发,以新发现的自组装藤壶胶蛋白cp19k为主体,结合贻贝Dopa化学,设计表达湿粘附性能进一步增强的纤维性融合蛋白;针对rBalcp19k蛋白在超声下极易发生降解的现象,研究了超声参数对rBalcp19k蛋白提取效果的影响,同时,结合溶菌
学位
行人重识别旨在从多个不同监控摄像头捕获到的画面中检索特定行人,在智能安防、无人超市等领域都具有重要价值,但受实际应用环境的影响,存在模型泛化性能差、数据标注困难等问题。随之提出的无监督行人重识别方法尝试在无人工标注的新场景数据上直接训练模型,但其性能仍不够理想。自监督学习致力于从大量无标注数据中利用样本内部结构和样本间关系提取表征信息,在部分自然语言处理和计算机视觉领域取得了较好的效果,其任务设定
学位
基于新时期社会发展环境,国家综合实力日益提升,更多人重视城市化建设和发展。目前,在市政工程不断扩大建设规模和数量背景下,社会重点关注市政工程施工质量,因此施工管理工作就显得至关重要,直接决定城市的发展进程,和社会经济效益有着息息相关的联系。所以,针对市政工程施工管理现状,要结合实际施工现场作业情况,严格落实国家和行业内颁发的标准和规范要求,从根本上提升市政工程的建设质量,积极使用现代化管理技术,不
期刊
城市空间在建造过程中对地域性特色的忽视,导致有意义的文化情境被破坏,空间语境传达不佳的现象,尤其是根植于城市发展的商业空间,既无法体现地域性文化意向也面临空间意义趋同的窘境。叙事化空间是对此回应和解决问题的空间设计策略,其叙事的传达便于文化可读性和空间意义乃至场所感的生发,也是侧面提升文化类空间和区域经济价值的方法。以叙事化空间设计策略做为切入点,关注在城市发展中依托文化内涵但无法正确传达空间语义
学位
主动型下肢假肢能为下肢截肢者运动提供主动助力。本文研究了一种基于虚拟约束的下肢假肢自适应滑模控制器,以实现下肢假肢连续统一步态控制。首先,建立了下肢假肢动力学模型及地面反应力点接触模型,采用DFT对步态数据进行曲线拟合,得到期望关节运动轨迹,为了避免假肢关节过于僵硬,加入阻抗控制使得假肢控制具有柔顺性。接着,为了解决传统有限状态机需要分段控制和特异性调节大量参数的问题,设计出下肢假肢膝关节虚拟约束
学位
自体骨移植是临界骨缺损临床治疗的“金标准”,然而因其固有缺陷,例如供体缺乏,二次创伤和较低的可定制性等,现阶段国内外该疾病的医疗需求无法被一种廉价、便捷的治疗手段所满足。为了解决这一问题,骨组织工程领域的研究者开展了大量的研究。许多研究者相信,通过制备基于新型生物活性材料的人工骨修复支架,有望在现有技术条件下缓解临界骨缺损治疗难题。凭借无机离子寡聚体制备技术我们制备了粒径小于5nm的磷酸钙寡聚体(
学位