论文部分内容阅读
强化学习通过试错与环境交互获得策略的改进,其自学习和在线学习的特点使其成为机器学习研究的一个重要分支。但是,强化学习一直被维数灾难所困扰。近年来,分层强化学习在克服维数灾难方面取得了显著进展,典型的成果有Option、HAM和MAXQ等方法,其中Option和MAXQ目前使用较为广泛。Option方法便于自动划分子任务(尤其分区或分段子任务),且子任务粒度易于控制,但利用先验知识划分子任务时,任务划分结果表达不够明晰,且子任务内部策略难于确定;MAXQ方法在线学习能力强,但自动分层能力较弱,且分层粒度不够精细,难于对一些规模依然很大的子任务做出进一步的分解。 本文集成Option和MAXQ探讨一种新的分层强化学习方法——OMQ,并深入研究集成过程中所涉及的理论与计算问题,以及该方法在实际应用中需要进一步解决的问题。 论文完成了以下主要工作: (1)提出了OMQ分层强化学习方法,给出了理论框架和学习算法,该框架集成了Option和MAXQ的优势,对学习任务既可以利用先验知识进行预先分层,也可以在学习过程中自动分层,拓展了任务分层能力;根据随机逼近理论采用数学归纳法证明了学习算法在与MAXQ相同的收敛条件下能依概率1收敛到递归最优解;实验表明OMQ学习算法的性能优于Q-学习、Option和MAXQ的学习算法; (2)提出了基于免疫聚类的OMQ任务自动分层算法,算法基于aiNet人工免疫网络模型及免疫克隆选择算法实现状态空间聚类,以生成的状态聚类子空间为基础构造子任务,实验表明该算法克服了以往的任务自动分层算法对状态空间可分割性的高度依赖问题;并借鉴免疫系统二次应答机制对算法进一步改进,提出了动态自动分层OMQ算法(DOMQ),在对状态空间进行初步探测之后即进行自动分层,并可以根据其后的探测结果对已生成子任