基于测地高斯基函数的递归最小二乘策略迭代

来源 :信息与控制 | 被引量 : 0次 | 上传用户：tonyrice

【摘要】

：

在策略迭代结强化学习方法的值函数逼近过程中，基函数的合理选择直接影响方法的性能．为更好地描述环境的拓扑关系，采用测地线距离来替换普通高斯函数中的欧氏距离，提出一种基于测

【作者】

：

王雪松张政程玉虎张依阳

【机构】

：

中国矿业大学信息与电气工程学院,中国科学院自动化研究所复杂系统与智能科学重点实验室

【出处】

：

信息与控制

【发表日期】

：

2009年4期

【关键词】

：

策略迭代递归最小二乘图论测地距离高斯函数基函数 policy iteration recursive least squares graph th

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在策略迭代结强化学习方法的值函数逼近过程中，基函数的合理选择直接影响方法的性能．为更好地描述环境的拓扑关系，采用测地线距离来替换普通高斯函数中的欧氏距离，提出一种基于测地高斯基函数的策略迭代强化学习方法．首先，基于马尔可夫决策过程抽样得到的样本数据建立环境的图论描述．其次，在图上定义测地高斯基函数，并用基于最短路径快速算法得到的最短路径来逼近测地线距离．然后，假定强化学习系统的状态—动作值函数是给定测地高斯基函数的加权组合，采用递归最小二乘方法对权值进行在线增量式更新．最后，基于估计的值函数进行策略改进．

其他文献

一种面向多目标关联覆盖的无线传感器网络节点优化调度算法

提出一种面向多目标关联点覆盖的无线传感器网络节点优化调度算法D-MTAC．该算法基于数据挖掘中的关联规则和无线传感器网络的能量高效原则，通过挖掘随机部署的网络节点与待监控

期刊

无线传感器网络覆盖问题关联规则能量有效性节点调度算法wireless sensor network （WSN） coverage problem

新一代移动外场网络制播系统——2012年伦敦奥运会转播实践

2012年7月3日至8月13日．中央电视台移动外场网络制播系统圆满地完成了伦敦奥运会的转播任务．这是继2009济南全运会、2010温哥华冬奥会、2010广州亚运会及2012年深圳大运会之后

期刊

制播系统奥运会转播伦敦网络移动中央电视台生命周期

A-SMGCS滑行道交叉口引导灯控制指令决策方法

为实现A-SMGCS（先进机场场面引导与控制系统）中滑行道交叉口引导灯控制指令的自动决策,提出了一种基于Petri网的控制决策方法.首先应用Petri网构建交叉口运行动态模型,并建立相

期刊

机场场面运行引导与控制滑行道交叉口引导灯控制PETRI网决策方法airport surface movement guidance and contro

一种高速ADC频域特性评估新方法的研究

提出了一种高速模数转换器频域特性评估新方法，即采用非相干采样方式，在标准快速离散傅里叶变换的基础上增加加窗和插值措施，从而显著减少了频谱泄漏，提高了评估精度，最大限度地降

期刊

高速模数转换器加窗和插值FFT相干采样非相干采样high-speed analog to digital converter （ADC） window

基于极大代数法的铝板轧制过程优化调度

本文以极大代数法为建模工具，建立起铝板轧制控制系统的模型．根据轧机与工件之间的加工条件规则，构造轧制系统的多队列多服务器模型．通过对基于极大代数法的生产线闭环线性模型的

期刊

极大代数法铝板轧制离散事件动态系统摄动分析调度max algebra aluminum plate rolling discrete event

钢铁企业高炉煤气发生量的在线预测建模

针对钢铁企业高炉煤气（BFG）发生量难于有效预测的问题,建立了基于数据滤波和最小二乘支持向量机的BFG发生量在线预测模型.提出改进经验模式分解阈值滤波（IEMDTF）方法对训练数据进

期刊

BFG发生量改进经验模式分解阈值滤波最小二乘支持向量机贝叶斯优化blast furnace gas output improved empirical

超空化航行器稳定性分析及最优控制设计

针对超空化航行器与超空泡之间的非线陆滑行力带来的稳定控制困难问题，提出了基于圆判据的超窄化航行器稳定性分析方法及其最优控制设计．以Dzielski提出的航行器模型为研究对象

期刊

超空化航行器滑行力执行器饱和最优控制supercavitating vehicle planing force actuator saturatio

基于免疫学习机制的遗传算法及其应用

针对基本遗传算法在进化后期收敛速度慢、易早熟收敛的问题，提出一种基于免疫学习机制的遗传算法（ILGA）．该算法的核心在于保持种群的多样性和执行强化学习及弱小保护策略，算法不仅

期刊

遗传算法免疫机制强化学习模糊神经网络genetic algorithm immunity mechanism reinforcement lea

光通信精瞄系统的时滞鲁棒非脆弱H_∞控制

采用加性不确定性描述了精瞄系统快速倾斜镜（FSM）的非线性滞环特性,将执行器驱动过程中的蠕变特性看作系统状态具有时滞依赖,并对卫星平台振动及抑制问题进行了分析.考虑到控制

期刊

模型摄动扰动抑制非脆弱控制器线性矩阵不等式model perturbation disturbance attenuation non-fragil

基于极点配置与时延误差补偿的网络控制系统预测控制

根据网络控制系统的时延上界及对象模型，建立网络控制系统的整体模型，应用极点配置广义预测方法进行控制器的设计，以保证网络控制系统控制的有效性与稳定性，考虑到网络时延的随机

期刊

网络控制系统极点配置广义预测控制误差补偿networked control system pole placement generalized pr

基于测地高斯基函数的递归最小二乘策略迭代

其他学术论文