论文部分内容阅读
为提高机器人的自主性,目前越来越多的算法被提出来,作为机器人导航的关键性算法,路径规划算法显得格外重要。虽然目前传统的路径规划算法研究也有取得相关的成果,但是传统算法缺少一种环境感知和环境学习的能力。本文在人工智能相关技术理论的背景下,对实现机器人自主路径规划的先进算法展开了进一步的研究。本文研究的是基于深度强化学习的路径规划方法,利用深度学习强大的学习能力和强化学习强大的决策能力,基于深度强化学习方法能够很好地实现智能化的路径规划。为实现更加智能的机器人室内环境路径规划,本文在DDPG(Deep Deterministic Policy Gradient)算法的基础上做了部分改进,算法改进点如下:(1)在深度强化学习DDPG算法的基础上提出了一种基于多步状态值的评论家网络算法改进,使训练的效果更加稳定、出色。(2)在基于深度强化学习的神经网络模型部分也提出了改进的方法,引入Radam算法实现更加高效的神经网络参数训练。(3)借鉴了A3C等相关理论,在改进的DDPG算法基础上,提出了基于异步的训练方法。(4)在深度学习的基础上,引入具有收敛性更快的迁移学习算法,应用到改进的DDPG算法上,进一步提升算法的性能。相关实验在ROS框架下展开,具体包括仿真实验和简单的室内场地实验,训练的对象是Turtlebot机器人。实验结果表明,相较于普通算法,改进算法具有更快的收敛性、高效性及准确性。