基于深度强化学习的拖挂式机器人反向运动问题研究

来源 :济南大学 | 被引量 : 0次 | 上传用户：jinyu9782

【摘要】

：

【作者】

：

王琪琪

【机构】

：

济南大学

【出处】

：

济南大学

【发表日期】

：

2023年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

人工智能作为一项计算机信息技术的前沿领域,凭借着强大的数据处理能力,在工业生产和生活的方方面面发挥着至关重要的作用,尤其是在无人驾驶方面,利用现今流行的深度强化学习算法,解决了一个又一个技术难题,成为当今世界最具竞争力的技术手段之一。拖挂式移动机器人（Tractor-trailer Mobile Robot,TTMR）在进行反向运动时,由于车体之间存在多方面的非线性关系,传统的控制方法无法满足系统的复杂要求。深度强化学习利用奖惩机制和神经网络的强大计算能力,通过数据和经验训练学习,经过不断地优化模型参数后,从而得到反向运动控制策略。因此,利用深度强化学习算法来实现拖挂式机器人的反向运动,不仅可以实现从端到端的直接运动控制,还可以增强移动机器人的智能化自主学习能力。本文的研究对象为“牵引车-拖车”式的移动机器人,首先分析牵引车和拖车之间角度和位形的约束关系,推导出TTMR动态约束方程,并建立相应的运动学模型。其次利用Webots软件设计拖挂式机器人的3D模型,通过圆周仿真运动验证模型的有效性。然后建立基于深度强化学习算法的反向运动训练模型,并设计奖励机制使得拖挂式机器人学习反向运动行为,最后通过构建拖挂式机器人的Gym仿真环境,利用环境接口实现可视化的实验仿真效果。针对拖挂式机器人的反向运动,采用策略梯度（Policy Gradient,PG）的算法,根据系统运动学方程定义神经网络的输入特征,并设计奖惩机制,通过训练模型拖挂式机器人可以学习到更优的反向运动行为。由于仿真结果存在奖励变化振荡的现象,所以采用小批量迭代的梯度下降方法解决系统不稳定导致的局部最优问题,通过实验表明了采用小批量梯度下降法可以更稳定地进行反向运动,解决了奖励变化振荡的问题。针对拖挂式机器人的反向泊车运动,采用深度确定性策略梯度（Deep Deterministic Policy Gradient,DDPG）的算法,并引入更复杂的深度神经网络结构提高系统的计算能力与训练速度,同时增加了系统的信息反馈能力。通过演员批评者框架来判断动作的优劣,使得算法不再输出动作的概率,而是输出为动作的确定值。设计拖挂式机器人反向泊车的奖励机制,包括角度奖励机制和位置约束等,然后训练模型使拖挂式机器人可以学习到更优的反向泊车运动策略,最后通过实验实现了拖挂式机器人的反向泊车运动,证明了控制算法和奖励机制的有效性。通过对上述深度强化学习算法的设计和优化,解决了非线性系统的振荡问题,并且训练过程中存在的局部最优问题也得到了改善,提高了控制算法对于动作选择策略的能力,实现了拖挂式机器人的反向运动和反向泊车运动。

其他文献

音乐训练对中度自闭症儿童抑制控制的影响

抑制控制是个体通过控制自己的注意、行为、想法或情绪来抵制强烈的内在反应倾向或外在诱惑的心理过程,包括反应抑制和干扰抑制。抑制控制是一种认知功能,是减少或制止神经、行为活动的机制。抑制控制能力对个体监控自己内心活动和外显行为具有重要影响,为个体学习、工作和适应社会打下基础。音乐训练是一种涉及听觉、触觉、视觉、躯体感觉、注意、记忆等相关认知系统参与的过程,是一种综合的、复杂的、系统的训练。个体在音乐训

学位

绘本故事教学对中度智力障碍儿童口语叙事能力的干预研究

口语叙事是帮助个体实现信息交流互换以及情感沟通表达的一项重要言语活动。中度智力障碍儿童受先天性缺陷的影响,语言能力发展受阻,口语叙事能力发展缓慢。绘本作为一类重要的儿童读物,符合儿童的心理发展特点和接受水平,能够帮助儿童在图文并茂的故事中发展各项基本能力。绘本故事教学是以故事类绘本材料为载体,通过讲故事的形式帮助儿童掌握知识、发展技能。本研究旨在探讨绘本故事教学对中度智力障碍儿童口语叙事能力的干预

学位

四年级不同亚型数学困难学生的数学词汇理解特点及干预研究

数学的学科特性使其有较强结构性和逻辑性。因此,在数学学习当中,充分阅读数学教科书、理解教师的教学用语、完成数学问题及评估都是必不可少的,这都要求学生必须发展对数学学术语言的理解,其中数学词汇是构成数学语言的重要方面,对数学词汇的理解和使用不仅会影响学生数学学习,而且也会阻碍教师与学生之间的数学交流。有研究表明,数学词汇与数学成绩有显著相关,数学困难的学生可能在阅读和言语理解方面存在困难,进而影响对

学位

轻度智力障碍学生社会规则的认知特点及干预研究

社会规则是指引人们日常生活的行为规范。智力障碍学生表现出种种违反社会规则的行为,严重影响了他们的日常生活。研究者针对智力障碍学生违反社会规则的行为表现,以及个别化干预方法进行了相关探究。但是针对智力障碍学生社会规则的认知特点的研究,以及智力障碍学生社会规则的干预研究,尚有待进一步加强。以往研究运用社会认知领域理论主要关注普通学生对不同领域社会规则的认知,本研究在社会认知领域理论的指导下,通过两个实

学位

关键反应训练对学龄前自闭症儿童要求和仿说行为的干预研究

关键反应训练是一种自然情境下的循证干预方法,能够有效增强自闭症儿童的学习动机,提高他们对外界刺激的认知能力,在改善自闭症患者语言沟通、社会交往等核心障碍上效果显著。要求（Mand）和仿说（Echoic）行为对于儿童的发展至关重要,要求行为的不足会导致儿童不能正确表达自身需求,从而发展出错误的表达方式;仿说行为是儿童进行社会交往的基础,在前语言阶段能增加儿童交替对话的意识,仿说行为的不足会影响儿童社

学位

社会地位获取策略和时间距离对合作行为的影响——来自行为和ERPs的证据

合作无处不在,小到课堂上的互助学习,大到国家之间的互利共赢,合作的重要性不言而喻。以往研究从人类进化、环境因素、个体因素等各方面对合作行为进行了探究,并提出了许多相应的理论模型。本研究采用问卷调查、实验室研究等不同的研究方法,进一步从个体因素和情境因素两个角度探讨社会地位获取策略（个体因素）和时间距离（情境因素）对个体合作行为的影响。研究分为研究一和研究二。其中,研究一通过三个子研究探究社会地位获

学位

工作记忆负荷对符号和非符号比率SNARC效应的影响

近年来数量信息的加工过程及机制一直是认知心理学的研究热点之一。空间数字联合反应编码效应（Spatial-Numerical Association of Response Code,SNARC）是在数字认知加工中出现的一种重要现象,具体指个体在对数字刺激进行表征加工时会表现出左手对小数反应更快,右手对大数反应更快。研究显示个体在对整数与分数加工时均存在SNARC效应,且工作记忆负荷可能会对SNAR

学位

基于摩擦补偿的PMSM低速控制研究

永磁同步电机（Permanent Magnet Synchronous Motors,PMSM）因其功率密度高,体积小和能耗低而被广泛应用于诸多领域。随着科学技术的不断发展,高性能的驱动控制理论也越来越受到人们的重视。然而永磁同步电机在低速区域运行时会发生抖动或者爬行现象,非常影响系统的精确性,有时甚至会导致系统无法正常运行,而引起低速抖动最重要的原因是系统存在摩擦力矩扰动。本文针对永磁同步电机低

学位

社会地位获取策略对提前/主动拖延行为的影响——解释水平的中介作用

当一项任务需要完成时,有些人选择立即完成,而另一些人选择在完成之前做好计划。前者是一种提前行为,后者是一种主动拖延行为。提前（pre-crastination）是指个体有一种习惯于迅速完成任务的倾向,但目的仅仅只是为了“完成任务”本身,快速而非理性地进行行为。主动拖延（active procrastination）是指个体故意拖延,在最后截止日期前完成任务并取得积极结果。在完成任务时有些人出现“提

学位

INS/UWB组合定位数据融合及滤波算法

随着社会的发展与科学技术的进步,定位技术在各个领域的应用越加广泛,受到了越来越多的关注。在室外,全球定位系统（Global Positioning System,GPS）等卫星定位技术可以满足基本的定位需求。而在室内,由于遮挡物影响等原因,GPS信号并不可靠,所以精确的室内定位往往需要依赖于其他手段实现。惯性导航系统（Inertial Navigation System,INS）和超宽带技术（Ul

学位

基于深度强化学习的拖挂式机器人反向运动问题研究

其他学术论文