回报函数驱动的高效探索研究

来源 :山西大学 | 被引量 : 0次 | 上传用户:bingying888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
探索与利用的均衡一直是强化学习研究的重点之一。探索帮助智能体进一步了解环境来做出更优决策;而利用帮助智能体根据其当前对于环境的认知来做出当前最优决策。强化学习通过与环境交互生成训练数据进而评估并更新所学策略,而非根据正确的策略指导学习过程,因此强化学习在学习过程中需要高效的探索。强化学习与环境交互获得回报,进而通过最大化累积回报来学习最优策略,因此环境中的回报函数直接影响强化学习的学习结果。当环境中回报稠密时,传统探索方法例如Optimistic Initial Values,Upper-Confidence-Bound Action Selection,Thompson Sampling等,通过衡量基于值函数的强化学习算法中值函数学习过程的不确定性,可极大提升算法的探索效率,且有充分的理论证明。但它们仅适用于离散状态空间,当状态空间很大甚至连续时,这些算法并不适用。当环境中回报稀疏时,强化学习算法与环境交互时难以获得正向回报,会导致性能低下。后视经验回放算法(Hindsight Experience Replay,HER)通过在每一回合结束时回放除原始目标状态之外的一部分新目标状态以增大训练数据中拥有正向回报数据的比例,进而根据新目标状态与原始目标状态之间的相似性学习到目标约束策略。但当原始目标状态始终难以到达时,HER回放生成的新目标状态与原始目标状态之间关联性就会较弱,从而导致难以学习到目标约束策略。针对环境回报稠密和回报稀疏情况下存在的问题,本文在通过回报函数提高算法探索效率方面开展研究,主要内容包括:(1)针对回报稠密时传统探索算法不适用于低维连续状态空间环境,提出基于状态空间自适应离散化的RMAX-KNN探索算法。该算法通过对低维连续状态空间进行自适应离散化划分并对离散点的状态行为值进行更新,同时用真实状态行为点K近邻中不满足给定距离阈值的离散点数来衡量当前状态行为对的不确定性,进而采用KNN回归将RMAX探索算法思想应用于低维连续状态空间环境中。状态空间的自适应离散化程度影响真实状态行为对的不确定性,而带有不确定性的状态行为对的状态行为值则会鼓励智能体(Agent)对环境进行进一步的探索,提高Q-learning及Sarsa算法的探索效率,同时理论证明此算法是一种PAC(Probably Approximately Correct)最优探索算法。(2)针对回报稀疏时强化学习算法性能低下,提出多阶段后视经验回放算法。该算法一方面根据原始目标状态空间与Agent初始位置之间的相对距离将原始任务划分为多个难度逐渐增加的阶段,另一方面Agent利用后视经验回放算法由易到难依次学习到达每一阶段指定目标区域的目标约束策略,从而形成一种明确的课程学习形式,并增强各阶段中回放目标状态与目标状态的关联性。当多目标稀疏回报环境中原始目标状态难以到达时,该算法可以帮助强化学习算法学习到目标约束策略。本文针对回报稠密和回报稀疏时存在的部分问题,研究提高强化学习算法探索效率的方法,取得的成果对传统RMAX探索算法在低维连续状态空间的有效拓展、多目标稀疏回报环境下最优策略的学习有一定的意义,同时对于用强化学习方法解决实际问题也有一定的应用价值。
其他文献
近些年来,多智能体系统广泛应用于民用、商用以及军事等领域,多智能体系统的分布式协同控制问题广受关注。包含控制作为多智能体系统协同控制的一个基本问题,对其进行研究具
高速铁路建设对现代交通方式的发展发挥着重大作用,为有效控制路基沉降、节省土地资源、保证行车顺利,高铁桥梁中大多以桥代路。对于高铁桥梁,桥梁布跨在方案设计过程中是一
近年来,人工智能技术逐步渗透到生活的各个方面,人们的生活因人工智能而发生着日新月异的变化。基于深度学习的实时行人检测技术作为人工智能的基础应用,为安防、自动驾驶、
现代社会,预测人群场景中的群体行为,得到多个人群之间交互的未来轨迹已经成为复杂场景下的研究热点,在计算机视觉等领域中引起了广泛的关注,基于现有的轨迹预测框架,结合各
目前,在我国轨道交通中,电力牵引交流传动控制技术已经得到普遍应用。在系统开发过程中,国内外的很多科研机构使用基于“能量互馈”的牵引及电气制动试验平台,检验所设计的列
随着复合材料的快速发展以及飞行器轻量化小型化的要求,除了需要设计更多与飞行器共形的天线元件,以减少突出结构天线形式对空气动力学的影响外;同时还需要赋予天线结构具有
现如今,软件的数量和代码量呈爆炸式增长,随之而产生的安全性问题也引起越来越多的关注。程序员的一个不经意的小错误可能会引发严重的后果,影响到软件运行的稳定性和用户使
摘 要:推进村级党组织领导法治化是实现乡村治理体系和治理能力现代化的必然要求,是在乡村治理中实现党的领导、人民当家作主和依法治国有机统一的根本途径,对于坚持和加强村级黨组织领导,保证村民自治的有效运行,推进法治乡村建设具有重要意义。在村民自治背景下推进村级党组织领导法治化需要着力解决以下关键问题:完善村级民主决策的法律机制,通过合法途径将村级党组织的意志上升为村庄的公共意志;全面贯彻落实党管干部原
飞机装配是产品生命周期中的重要环节,与产品性能、质量等因素密切相关。目前,飞机装配工艺设计大多以二维图纸为依据,其方法可视化效果差,而应用三维模型可以形象的、直观的
在计算机视觉、模式识别与机器学习领域中图像场景分类扮演着非常重要的角色。图像场景分类广泛应用于很多个领域,如目标识别和行为检测。但是,对于单个物体实例来说,通常会