平均报酬模型的多步强化学习算法

来源 :控制理论与应用 | 被引量 : 0次 | 上传用户:liongliong499
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
讨论模型未知的平均报酬强化学习算法。通过结合即时差分学习与R学习算法,将折扣问题中的一些方法推广到了平均准则问题中,提出了两类算法:R(λ)学习。现有的R学习可视为R(λ)学习和TTD(λ)学习当λ=0时的一个特例。仿真结果表明,λ取中间值的R(λ)和TTD(λ)学习比现有的方法在可靠性与收敛速度上均有提高。
其他文献
基于具有$m个输入、至多m+2个状态变量的可控无漂移系统为微分平面系统这样一个事实,通过动态扩展原理和自适应控制技术,本文提出了一种针对三轮移动机器人轨迹跟踪问题的鲁
对机器状态的变化为非齐次马尔可夫过程,带内部缓冲栈的单工件-两机器串联生产系统的最优生产率和维护率进行研究,给出了最优维护率的结构,得到最优生产率由安全面和临界面确定的
提出一种新的基于混合基因算法(HGA)的非线性回归模型参数估计算法.新算法通过对问题的解空间交替进行全局和局部搜索,达到快速收敛至全局最优解,较好地解决了传统算法通用性
邓小平政治合法性理论是以经济绩效为主、意识形态为辅.有合理性也有局限性.科学发展观是对邓小平政治合法性理论的丰富发展,为新时期巩固党的执政合法性指明了方向.
讨论了具有时滞的非线性不确定鲁里叶控制系统的鲁棒绝对稳定性问题.应用Bellman-Gronwell不等式和Lyapunov泛函方法研究了不确定鲁里叶控制系统的鲁棒绝对稳定性并给出了系