状态集结相关论文
在大规模随机控制问题中,值函数逼近是一种克服维数灾的方法.考虑平均模型马氏决策规划(MDP)的状态软集结相对值迭代算法,在Span压......
提出了一种自适应状态集结因子化SARSA(λ)强化学习算法,在学习的过程中利用Bellman余留数进行状态集结,通过集结,大大减少了状态......