基于内部回归神经网络的强化学习

来源 :控制工程 | 被引量 : 0次 | 上传用户:wenxiaoyao1214
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在强化学习和动态规划算法的基础上,提出一种不需要预测模型的改进的强化学习算法.该学习算法在模型未知和没有先验经验的条件下,能通过自身神经网络的在线学习,有效控制不稳定的非线性系统.该学习算法的网络结构采用内部回归神经网络,这样可以增强网络本身处理动态信息的能力,使其更适合复杂系统的稳定控制.应用到一级倒立摆物理实体的控制,实验结果表明了该学习算法在性能上优于其他同类强化学习算法.
其他文献
为了研究黄土丘陵半干旱区人工林迹地土壤水分恢复情况,该文以正在生长的人工林土壤水分含量为人工林迹地土壤水分恢复的起点,并分别以持续农地和持续放牧荒坡的土壤含水量为林后农地和草地土壤水分恢复的上限,对位于黄土丘陵半干旱区绥德县境内的人工林迹地土壤水分恢复情况进行了研究。结果表明,人工林死后的放牧荒坡在20a的时间里,其土壤水分没有补偿;人工林死后的保护草地土壤水分有微弱恢复迹象,但年恢复速度在0.5
主治医师常规日查房是临床教学的主要手段之一,将主治医师日查房作为提高其临床教学能力的切入点,成立专家督导组从复核检查病史体征、分析疾病的条理及逻辑思维能力、理论对实
针对冷连轧轧制过程这个高度复杂的动态过程,提出了一种新的仿真的方法用来实现实时仿真.它利用数字信号处理器DSP的高速运算速度来实现动态模型的实时计算,通过内存映像网与
以山东省邹城市为试点,依据1990~2005年土地统计资料对该市矿粮复合区生态系统服务价值进行分析。结果表明,矿粮复合区内土地利用结构变化较快,具体表现为耕地的快速减少,水域和
介绍了张家界市柑桔生产的历史与现状,分析了张家界市发展柑桔生产的有利条件,指出了张家界市柑桔生产存在的主要问题,提出了张家界市发展柑桔生产的对策.
目的:为优化电穿孔转染质粒的条件,提高转染率。方法:以不同条件用电穿孔方法将重组质粒PLXSN-S转入p815、pA317、HepG2、EL4等真核细胞,探讨电压,电容及电转缓冲液温度对转染率的影响。结果(1)低电压(200~300V),高电容(900~1000uF)能
对77例单纯室缺(VSD n=37)和房缺(ASDn=40)病人,采用彩色多产勒超声心动图结合超声声学造影法进行检查,旨在通过定量分析肺动脉收缩压(PASP),观察其对心腔内右向左分流的影响,结果显示:VSD、PASP压力大于48mmHg可导致右向
湘油17号是湖南省作物研究所以早熟品系91-1为母本、224-2为父本进行杂交,以其杂种一代为母本,双低品系7077为父本,经多代复交、选择,于1997年定型、2003年通过审定的高产、
对大蒜进行了施硫试验,结果表明,大蒜施用硫肥能显著提高产量、品质与经济效益.不同的施硫水平对大蒜产量、品质和经济效益的影响程度各异,低施硫量处理对大蒜的肥效要低于高
目的 研究在T-G型冷冻保护剂(Cryopreservative medium,CPM)作用下,速缓冻贮法对人精子结构和功能的影响。方法 随机双盲对照,将45份正常精液随机分组,加与不加CPM,以速缓冷冻法分别进行冻贮,冻贮前后分别进行常规分