论文部分内容阅读
目前机器人技术的研究已经从传统的机械动力学开始向智能化控制方向进行转变,特别是综合吸收了控制理论、人工神经网络和机器学习等领域的研究成果后,机器人技术已经逐渐成为了人工智能领域的核心之一。如何赋予机器人自主学习的能力是机器人技术发展的关键之一,也是当前机器人技术领域研究和关注的重点,机器人只有具备了自主学习能力才能称之为智能机器人。因此,如何设计更好的机器学习算法并用来提升机器人智能化水平具有重大与深远的意义。强化学习作为近年来机器学习领域中的重要算法之一,其最大的特点是可以在不给定标签训练数据的情况下,通过与环境的不断交互自主的进行学习,是提高机器人智能化水平的核心技术之一,尤其是近年来强化学习与深度学习结合的深度强化学习展现了极强的学习能力。虽然当前深度强化学习算法在机器人智能化提升方面得到了长足的发展,并且也获得了许多成功,但是深度强化学习的研究仍然处于初级阶段,在实际应用中仍旧存在着一些问题和挑战,比如奖赏黑客问题、数据利用效率问题和运动平滑性问题等。这些缺点直接影响了强化学习在现实环境中的性能表现,甚至会对智能体带来一定的损害。因此,本文以这些问题和挑战作为出发点,对现有的强化学习算法进行改进,并针对性的提出了新的算法。本文的主要工作和研究成果包含以下几个方面:1.针对奖赏黑客问题,提出了一种新的基于在线策略的多步强化学习算法。由于奖赏黑客问题的存在,强化学习在实际应用中会导致智能体产生一些意外的行为,这种意外的行为会颠覆设计者的意图,致使机器人无法按照设计者期望的方式进行运动。因此,针对此问题,本文提出了一种新的基于在线策略的多步强化学习算法。与传统的算法不同,新的多步强化学习算法使用一个新的回报函数模型,该函数改变了未来奖赏的折扣形式,降低了即时奖赏对系统选择动作的影响,这种特殊的模型能够有效的减弱奖赏黑客问题带来的负面影响。为了验证新算法的性能,我们通过改进的猫捉老鼠和山地车爬坡两个实验平台对算法进行了评估,实验结果表明新算法能够有效的解决奖赏黑客问题,并且比传统的强化学习算法具有更好的性能表现。2.针对数据利用效率问题,提出了一种基于新的基于离线策略的多步强化学习算法。由于深度强化学习在应用过程中智能体需要通过不断的试错来进行学习,随着任务环境变得复杂,深度强化学习往往需要大量的时间和数据来进行训练,如何有效的提升数据利用效率并降低训练时间是当前深度强化学习急需解决的一个问题。此外,数据利用效率过低也会造成智能体在训练过程中尝试过多的危险动作,这容易对系统造成破坏,进而影响系统的安全性。因此,针对该问题,本文提出了一种新的基于离线策略的多步强化学习算法,通过把该算法与经验池结构相结合我们提出了两种标准的深度强化学习算法。在本文中,我们通过DeepTraffic和CartPole两个平台对所提出的深度强化学习算法进行了评估,实验结果表明本文所提出的算法性能表现要明显优于传统的深度强化学习算法,能够有效的解决数据利用效率低的问题。3.针对机器人运动平滑性问题,提出了一种基于动态运动基元的深度强化学习算法。由于机器人关节运动是由电机进行驱动控制的,如果电机的运动轨迹(角度轨迹、角速度轨迹和角加速度轨迹)具有较大的波动性,此时电机的驱动力矩也会产生很大的波动性,甚至是较大的突变值,这容易对机器人关节造成损害。因此,与人类运动一样,机械臂的运动需要平滑的进行编码,没有突然的加速或颠簸的过程。为了解决这个问题,只有一个好的深度强化学习算法是远远不够的,主要的原因是传统的深度强化学习算法的控制策略是逐步生成的,这种策略更倾向于使机器人快速的完成任务,而不是模仿示教运动轨迹平滑的运动。因此,针对此问题,本文提出了一种基于动态运动基元的深度强化学习算法,与传统的算法不同,新的算法由两个学习层次结构构成,一个是低级控制器学习层次,一个是高级策略学习层次。在新算法中,元参数的学习和基于元参数生成运动轨迹这两个相互关联的部分可以分别独立的进行训练学习,这样能够同时充分的利用动态运动基元的优势和深度强化学习算法的优点,使得机器人不仅能够生成平滑的运动轨迹,同时也能够让机器人具有自主学习的能力。为验证算法的性能表现,我们通过基于ROS的UR5机器人进行了仿真实验,实验结果有效的说明了本文所提出的算法可以让机器人流畅自然地完成任务。