论文部分内容阅读
在强化学习和动态规划算法的基础上,提出一种不需要预测模型的改进的强化学习算法.该学习算法在模型未知和没有先验经验的条件下,能通过自身神经网络的在线学习,有效控制不稳定的非线性系统.该学习算法的网络结构采用内部回归神经网络,这样可以增强网络本身处理动态信息的能力,使其更适合复杂系统的稳定控制.应用到一级倒立摆物理实体的控制,实验结果表明了该学习算法在性能上优于其他同类强化学习算法.