深度强化学习算法及应用研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:zhouyonge
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前机器人技术的研究已经从传统的机械动力学开始向智能化控制方向进行转变,特别是综合吸收了控制理论、人工神经网络和机器学习等领域的研究成果后,机器人技术已经逐渐成为了人工智能领域的核心之一。如何赋予机器人自主学习的能力是机器人技术发展的关键之一,也是当前机器人技术领域研究和关注的重点,机器人只有具备了自主学习能力才能称之为智能机器人。因此,如何设计更好的机器学习算法并用来提升机器人智能化水平具有重大与深远的意义。强化学习作为近年来机器学习领域中的重要算法之一,其最大的特点是可以在不给定标签训练数据的情况下,通过与环境的不断交互自主的进行学习,是提高机器人智能化水平的核心技术之一,尤其是近年来强化学习与深度学习结合的深度强化学习展现了极强的学习能力。虽然当前深度强化学习算法在机器人智能化提升方面得到了长足的发展,并且也获得了许多成功,但是深度强化学习的研究仍然处于初级阶段,在实际应用中仍旧存在着一些问题和挑战,比如奖赏黑客问题、数据利用效率问题和运动平滑性问题等。这些缺点直接影响了强化学习在现实环境中的性能表现,甚至会对智能体带来一定的损害。因此,本文以这些问题和挑战作为出发点,对现有的强化学习算法进行改进,并针对性的提出了新的算法。本文的主要工作和研究成果包含以下几个方面:1.针对奖赏黑客问题,提出了一种新的基于在线策略的多步强化学习算法。由于奖赏黑客问题的存在,强化学习在实际应用中会导致智能体产生一些意外的行为,这种意外的行为会颠覆设计者的意图,致使机器人无法按照设计者期望的方式进行运动。因此,针对此问题,本文提出了一种新的基于在线策略的多步强化学习算法。与传统的算法不同,新的多步强化学习算法使用一个新的回报函数模型,该函数改变了未来奖赏的折扣形式,降低了即时奖赏对系统选择动作的影响,这种特殊的模型能够有效的减弱奖赏黑客问题带来的负面影响。为了验证新算法的性能,我们通过改进的猫捉老鼠和山地车爬坡两个实验平台对算法进行了评估,实验结果表明新算法能够有效的解决奖赏黑客问题,并且比传统的强化学习算法具有更好的性能表现。2.针对数据利用效率问题,提出了一种基于新的基于离线策略的多步强化学习算法。由于深度强化学习在应用过程中智能体需要通过不断的试错来进行学习,随着任务环境变得复杂,深度强化学习往往需要大量的时间和数据来进行训练,如何有效的提升数据利用效率并降低训练时间是当前深度强化学习急需解决的一个问题。此外,数据利用效率过低也会造成智能体在训练过程中尝试过多的危险动作,这容易对系统造成破坏,进而影响系统的安全性。因此,针对该问题,本文提出了一种新的基于离线策略的多步强化学习算法,通过把该算法与经验池结构相结合我们提出了两种标准的深度强化学习算法。在本文中,我们通过DeepTraffic和CartPole两个平台对所提出的深度强化学习算法进行了评估,实验结果表明本文所提出的算法性能表现要明显优于传统的深度强化学习算法,能够有效的解决数据利用效率低的问题。3.针对机器人运动平滑性问题,提出了一种基于动态运动基元的深度强化学习算法。由于机器人关节运动是由电机进行驱动控制的,如果电机的运动轨迹(角度轨迹、角速度轨迹和角加速度轨迹)具有较大的波动性,此时电机的驱动力矩也会产生很大的波动性,甚至是较大的突变值,这容易对机器人关节造成损害。因此,与人类运动一样,机械臂的运动需要平滑的进行编码,没有突然的加速或颠簸的过程。为了解决这个问题,只有一个好的深度强化学习算法是远远不够的,主要的原因是传统的深度强化学习算法的控制策略是逐步生成的,这种策略更倾向于使机器人快速的完成任务,而不是模仿示教运动轨迹平滑的运动。因此,针对此问题,本文提出了一种基于动态运动基元的深度强化学习算法,与传统的算法不同,新的算法由两个学习层次结构构成,一个是低级控制器学习层次,一个是高级策略学习层次。在新算法中,元参数的学习和基于元参数生成运动轨迹这两个相互关联的部分可以分别独立的进行训练学习,这样能够同时充分的利用动态运动基元的优势和深度强化学习算法的优点,使得机器人不仅能够生成平滑的运动轨迹,同时也能够让机器人具有自主学习的能力。为验证算法的性能表现,我们通过基于ROS的UR5机器人进行了仿真实验,实验结果有效的说明了本文所提出的算法可以让机器人流畅自然地完成任务。
其他文献
目的通过对加速腐蚀关系的研究,为飞机的日历寿命的确定提供依据。方法首先提出基于腐蚀电流的加速腐蚀关系可靠性模型,并通过测试极化曲线的方法得到LY12和ZL115两种飞机常
对大功率器件中两种直径(250μm/380μm)铝丝键合强度在温度冲击试验下的退化行为进行了研究,分析了试验后铝丝键合强度的退化情况。设置了不同的工艺参数水平,通过温度冲击
本文阐述世纪之交中国第三代图书馆人和第四代图书馆人的更迭,分析新世纪中国图书馆人才成长中出现的"玻璃天花板现象"和"掘墓人现象",以及中国图书馆界可能出现的新的专业人
应用分形理论研究植物根系的形态结构特征和生理功能。通过对不同水分条件下4年生盆栽银叶椴根系的分形维数值及根丰度和根系长度等进行研究发现:水涝处理根系的分形维数值最
养老问题在当今和今后相当长的一定时间里,都是一个全球性的社会问题。世界人口老龄化现象是经济和社会发展的必然规律。我国将在本世纪二、三十年代进入老龄化高峰期。与发
上消化道出血是肝硬化最常见而又严重的并发症,出血原因主要是门脉高压导致食管静脉曲张破裂出血。肝硬化合并上消化道再出血的相关因素值得探讨,以指导医护人员进行针对性的护
在电网主网工程中,杆塔工程是其中的一项基础施工项目。但是,杆塔工程的施工质量,却会在一定的程度上影响到主网线路的安全性和稳定性。而杆塔工程中所使用的施工技术,也会影
随着上世纪90年代末期我国住房政策改革的推进,福利住房政策基本退出历史的舞台,同时国家为了刺激经济发展,采取各种措施鼓励居民改善住房条件。这一系列措施的实施使得我国
第五代移动通信(5th Generation Mobile Communication,5G)终端模拟器应用随机接入、多天线等技术融合能够满足用户对网络体验速率、端到端时延等网络性能需求。移动通信过程
针对合成氨尿素生产污水氨氮含量高的处理难点,采用以SBR—BAF为核心的处理技术,该技术可有效处理合成氨尿素生产污水,在进水CODCr质量浓度为500~2300mg/L,氨氮质量浓度为100~280mg/L