平均报酬模型的多步强化学习算法

来源 :控制理论与应用 | 被引量 : 0次 | 上传用户：liongliong499

【摘要】

：

讨论模型未知的平均报酬强化学习算法。通过结合即时差分学习与Ｒ学习算法，将折扣问题中的一些方法推广到了平均准则问题中，提出了两类算法：Ｒ（λ）学习。现有的Ｒ学习可视为Ｒ（λ）学习和ＴＴＤ（λ）学

【作者】

：

胡光华吴沧浦

【机构】

：

北京理工大学自动控制系

【出处】

：

控制理论与应用

【发表日期】

：

2000年5期

【关键词】

：

R学习强化学习算法平均报酬模型机器学习 reinforcement learning temporal difference learning Mar

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

讨论模型未知的平均报酬强化学习算法。通过结合即时差分学习与Ｒ学习算法，将折扣问题中的一些方法推广到了平均准则问题中，提出了两类算法：Ｒ（λ）学习。现有的Ｒ学习可视为Ｒ（λ）学习和ＴＴＤ（λ）学习当λ＝０时的一个特例。仿真结果表明，λ取中间值的Ｒ（λ）和ＴＴＤ（λ）学习比现有的方法在可靠性与收敛速度上均有提高。

其他文献

一种关于移动机器人的自适应变结构控制方法

基于具有$m个输入、至多m+2个状态变量的可控无漂移系统为微分平面系统这样一个事实,通过动态扩展原理和自适应控制技术,本文提出了一种针对三轮移动机器人轨迹跟踪问题的鲁

期刊

移动机器人动态反馈精确线性比自适应变结构控制mobile robotsunderactuated nonlinear systemsdynamic

两机器串联生产系统在随机状态下的最优生产和维护策略的研究

对机器状态的变化为非齐次马尔可夫过程，带内部缓冲栈的单工件－两机器串联生产系统的最优生产率和维护率进行研究，给出了最优维护率的结构，得到最优生产率由安全面和临界面确定的

期刊

动态规划HJB方程最优生产维护策略生产系统dynamic programming HJB equation hedging point polic

一种新的非线性回归模型参数估计算法

提出一种新的基于混合基因算法(HGA)的非线性回归模型参数估计算法.新算法通过对问题的解空间交替进行全局和局部搜索,达到快速收敛至全局最优解,较好地解决了传统算法通用性

期刊

混合基因算法参数估计最小二乘估计非线性回归模型算法genetic algorithm nonlinear parameter estimation

科学发展观对邓小平政治合法性理论的发展

邓小平政治合法性理论是以经济绩效为主、意识形态为辅.有合理性也有局限性.科学发展观是对邓小平政治合法性理论的丰富发展,为新时期巩固党的执政合法性指明了方向.

期刊

合法性理论邓小平以经济建设为中心科学发展观Theory of Political Legitimacy Deng Xiao-ping Focus o

具有时滞的不确定鲁里叶控制系统的绝对鲁棒稳定性

讨论了具有时滞的非线性不确定鲁里叶控制系统的鲁棒绝对稳定性问题.应用Bellman-Gronwell不等式和Lyapunov泛函方法研究了不确定鲁里叶控制系统的鲁棒绝对稳定性并给出了系

期刊

不确定性鲁棒绝对稳定性鲁里叶控制系统时滞系统timedelayuncertaintyrobust absolute stabilityLurie

平均报酬模型的多步强化学习算法

其他学术论文