论文部分内容阅读
近年来,自主水下机器人(Autonomous Underwater Vehicle,AUV)凭借其在海底作业时强大的自主性和灵活性吸引了研究学者们的关注。与有缆遥控水下机器人相比,AUV不受母船的约束,具有更大的活动范围和更强的灵活性。同时,由于与母船不存在物理连接,对其自主控制性能也提出了更高的要求。因此,为了能在复杂的海洋环境中执行高精度任务,研究出精确性更高,鲁棒性更强的AUV控制算法十分必要。
然而,AUV在执行任务时,随时可能受到周围包括洋流扰动、AUV自身浮力变化等外界环境的干扰。而大多数基于模型的控制方法需要提前预设好控制参数,AUV在水下完成如路径跟踪等自主控制任务时,精确性和稳定性都受到了挑战。而基于深度强化学习(Deep Reinforcement Learning,DRL)理论的控制方法,智能体经过大量探索训练,面对复杂外部环境有着优秀的自主决策和抗干扰能力。因此,本文基于双延迟深度确定性策略梯度算法(Twin Delayed Deep Deterministic policy gradient algorithm,TD3)提出一些改进方案,对AUV的智能控制问题展开研究。具体研究内容包括:
首先,为了开展AUV的智能控制与路径跟踪实验,训练出有效的强化学习控制算法模型,本文首先建立了两个参考坐标系,并基于牛顿-欧拉方程建立了AUV数学模型。另外,为了测试本文设计的AUV控制器在有干扰条件下的控制性能,本文在AUV的运行仿真环境中增加了海流干扰模型。
其次,为了分析DRL算法在机器人智能控制方面强大的自主决策和抗干扰能力,本文介绍了强化学习基础理论,分析了基于模型和基于DRL控制算法在AUV控制性能方面的优劣。接着,针对强化学习算法中训练速度慢,训练初期随机性强很难找到优秀策略的问题,本文基于TD3算法做出了改进,包括结合S面控制方法完成指导性探索以及增加网络预训练阶段等。另外,为了提高AUV在复杂的海洋环境中的自主性和抗干扰能力,本文使用TD3算法完成AUV智能控制任务的训练,并在训练过程中在状态量上增加高斯噪声以提高AUV控制器的稳定性。然后,基于改进型的TD3算法设计出强化学习控制器,并建立实验仿真平台,设计AUV恒定深度控制和速度控制实验,验证改进后TD3控制算法的优越性。
最后,本文基于改进后TD3算法,使用视线法(Line-Of-Sight,LOS)针对AUV直线和曲线路径跟踪任务开展仿真实验。验证本文提出的改进型TD3算法在训练速度上的优势,以及在有干扰条件下的稳定性。
然而,AUV在执行任务时,随时可能受到周围包括洋流扰动、AUV自身浮力变化等外界环境的干扰。而大多数基于模型的控制方法需要提前预设好控制参数,AUV在水下完成如路径跟踪等自主控制任务时,精确性和稳定性都受到了挑战。而基于深度强化学习(Deep Reinforcement Learning,DRL)理论的控制方法,智能体经过大量探索训练,面对复杂外部环境有着优秀的自主决策和抗干扰能力。因此,本文基于双延迟深度确定性策略梯度算法(Twin Delayed Deep Deterministic policy gradient algorithm,TD3)提出一些改进方案,对AUV的智能控制问题展开研究。具体研究内容包括:
首先,为了开展AUV的智能控制与路径跟踪实验,训练出有效的强化学习控制算法模型,本文首先建立了两个参考坐标系,并基于牛顿-欧拉方程建立了AUV数学模型。另外,为了测试本文设计的AUV控制器在有干扰条件下的控制性能,本文在AUV的运行仿真环境中增加了海流干扰模型。
其次,为了分析DRL算法在机器人智能控制方面强大的自主决策和抗干扰能力,本文介绍了强化学习基础理论,分析了基于模型和基于DRL控制算法在AUV控制性能方面的优劣。接着,针对强化学习算法中训练速度慢,训练初期随机性强很难找到优秀策略的问题,本文基于TD3算法做出了改进,包括结合S面控制方法完成指导性探索以及增加网络预训练阶段等。另外,为了提高AUV在复杂的海洋环境中的自主性和抗干扰能力,本文使用TD3算法完成AUV智能控制任务的训练,并在训练过程中在状态量上增加高斯噪声以提高AUV控制器的稳定性。然后,基于改进型的TD3算法设计出强化学习控制器,并建立实验仿真平台,设计AUV恒定深度控制和速度控制实验,验证改进后TD3控制算法的优越性。
最后,本文基于改进后TD3算法,使用视线法(Line-Of-Sight,LOS)针对AUV直线和曲线路径跟踪任务开展仿真实验。验证本文提出的改进型TD3算法在训练速度上的优势,以及在有干扰条件下的稳定性。