基于逐次超松弛技术的Double Speedy Q-Learning算法

来源 :计算机科学 | 被引量 : 0次 | 上传用户:aswe19
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Q-Learning是目前一种主流的强化学习算法,但其在随机环境中收敛速度不佳,之前的研究针对Speedy Q-Learning存在的过估计问题进行改进,提出了Double Speedy Q-Learning算法.但Double Speedy Q-Learning算法并未考虑随机环境中存在的自循环结构,即代理执行动作时,存在进入当前状态的概率,这将不利于代理在随机环境中学习,从而影响算法的收敛速度.针对Double Speedy Q-Learning中存在的自循环结构,利用逐次超松弛技术对Double Speedy Q-Learning算法的Bellman算子进行改进,提出基于逐次超松弛技术的Double Speedy Q-Learning算法(Double Speedy Q-Learning based on Successive Over Relaxation,DSQL-SOR),进一步提升了Double Speedy Q-Learning算法的收敛速度.通过数值实验将DSQL-SOR与其他算法的实际奖励和期望奖励之间的误差进行对比,实验结果表明,所提算法比现有主流的算法SQL的误差低0.6,比逐次超松弛算法GSQL低0.5,这表明DSQL-SOR算法的性能较其他算法更优.实验同时对DSQL-SOR算法的可拓展性进行测试,当状态空间从10增加到1000时,每次迭代的平均时间增长缓慢,始终维持在10-4数量级上,表明DSQL-SOR的可拓展性较强.
其他文献
近年来,图神经网络在神经性脑疾病诊断中的应用引起了广泛关注.然而,现有研究中使用的图通常只是基于简单的点对点连接,无法反映3个或更多受试者之间的复杂关联,尤其是在多中心数据集中,即由不同医疗机构所使用的不同采集设备和不同受试人群而集成的具有异质性的数据集.为解决医疗影像数据中存在的多中心异质性问题,提出了一种多中心超图数据结构来描述多中心数据之间的关系.这种超图由两种不同的超边构成,一种是描述单个中心内部关系的中心内超边,另一种是描述不同中心之间关系的跨中心超边.另外,还提出了一种超图卷积神经网络来学习节