基于测地高斯基函数的递归最小二乘策略迭代

来源 :信息与控制 | 被引量 : 0次 | 上传用户:tonyrice
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在策略迭代结强化学习方法的值函数逼近过程中,基函数的合理选择直接影响方法的性能.为更好地描述环境的拓扑关系,采用测地线距离来替换普通高斯函数中的欧氏距离,提出一种基于测地高斯基函数的策略迭代强化学习方法.首先,基于马尔可夫决策过程抽样得到的样本数据建立环境的图论描述.其次,在图上定义测地高斯基函数,并用基于最短路径快速算法得到的最短路径来逼近测地线距离.然后,假定强化学习系统的状态—动作值函数是给定测地高斯基函数的加权组合,采用递归最小二乘方法对权值进行在线增量式更新.最后,基于估计的值函数进行策略改进.
其他文献
提出一种面向多目标关联点覆盖的无线传感器网络节点优化调度算法D-MTAC.该算法基于数据挖掘中的关联规则和无线传感器网络的能量高效原则,通过挖掘随机部署的网络节点与待监控
2012年7月3日至8月13日.中央电视台移动外场网络制播系统圆满地完成了伦敦奥运会的转播任务.这是继2009济南全运会、2010温哥华冬奥会、2010广州亚运会及2012年深圳大运会之后
为实现A-SMGCS(先进机场场面引导与控制系统)中滑行道交叉口引导灯控制指令的自动决策,提出了一种基于Petri网的控制决策方法.首先应用Petri网构建交叉口运行动态模型,并建立相
提出了一种高速模数转换器频域特性评估新方法,即采用非相干采样方式,在标准快速离散傅里叶变换的基础上增加加窗和插值措施,从而显著减少了频谱泄漏,提高了评估精度,最大限度地降
本文以极大代数法为建模工具,建立起铝板轧制控制系统的模型.根据轧机与工件之间的加工条件规则,构造轧制系统的多队列多服务器模型.通过对基于极大代数法的生产线闭环线性模型的
针对钢铁企业高炉煤气(BFG)发生量难于有效预测的问题,建立了基于数据滤波和最小二乘支持向量机的BFG发生量在线预测模型.提出改进经验模式分解阈值滤波(IEMDTF)方法对训练数据进
针对超空化航行器与超空泡之间的非线陆滑行力带来的稳定控制困难问题,提出了基于圆判据的超窄化航行器稳定性分析方法及其最优控制设计.以Dzielski提出的航行器模型为研究对象
针对基本遗传算法在进化后期收敛速度慢、易早熟收敛的问题,提出一种基于免疫学习机制的遗传算法(ILGA).该算法的核心在于保持种群的多样性和执行强化学习及弱小保护策略,算法不仅
采用加性不确定性描述了精瞄系统快速倾斜镜(FSM)的非线性滞环特性,将执行器驱动过程中的蠕变特性看作系统状态具有时滞依赖,并对卫星平台振动及抑制问题进行了分析.考虑到控制
根据网络控制系统的时延上界及对象模型,建立网络控制系统的整体模型,应用极点配置广义预测方法进行控制器的设计,以保证网络控制系统控制的有效性与稳定性,考虑到网络时延的随机