强化学习方法的对比分析

来源 :计算机时代 | 被引量 : 0次 | 上传用户:li13688
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是指从环境状态到行为映射的学习,使智能体从环境交互中获得的累积奖赏最大化。文章在介绍强化学习原理和方法的基础上,对动态规划、蒙特卡罗算法和时间差分算法进行了分析,并以栅格问题为仿真实验平台进行算法验证,分析比较了蒙特卡罗算法与时间差分算法学习速率的收敛性,以及学习率对时间差分算法的影响。实验结果表明,时间差分算法收敛速度比蒙特卡罗算法快一些;学习率选取较大时,时间差分算法收敛速度会快一些。
其他文献
目的:用大肠杆菌表达猪细小病毒NS1基因的主要抗原表位区。方法:通过对GenBank发表的猪细小病毒(Porcine Par-vovirus,PPV)中国株非结构蛋白NS1的氨基酸序列分析,确定了其中抗原
修正后的刑事诉讼法增加了侦查证人制度的有关内容,但比较粗疏,需要进一步完善才能在刑事诉讼中发挥出应有的作用。
通过测试LiFePO4在1.0mol/L的锂离子水溶液电解液中不同扫描速率下CV曲线,研究了LiFePO4在水溶液电解液中的电化学储锂性能。结果表明:Li+嵌入和脱出LiFePO4的扩散系数分别为9.
目的:优化琼氏不动杆菌FM208850发酵生产果胶酶的培养基组成及发酵条件,以提高其产量。方法:在研究碳源、氮源、无机盐的种类及量的单因素实验基础上,选取香蕉皮、牛肉膏、NaCl和
期刊
英语教学中的阅读教学是学生获得英语信息的重要途径。如何培养学生形成良好的阅读习惯,是农村小学英语教师所面临的一个难题。以下我就根据从教师和学生两方面分析一下农村小
全国政法工作会议提出,今年和今后一个时期政法机关要紧紧围绕深入推进社会矛盾化解、社会管理创新、公正廉洁执法三项重点工作,加大工作力度,为经济社会发展提供有力司法保
长期以来,反渎职侵权工作普遍存在着发现难、取证难、追诉难和阻力大的困惑,即所谓的“三难一大”现象。究其原,反渎职侵权工作中“侦、捕、诉”一体化内部协调沟通配合机制和与
以高粱的叶片为试材,采用CTAB法提取DNA,应用RAPD筛选技术对高粱基因进行分子标记。共筛选80个RAPD随机引物,其中有27个引物能对DNA扩增并能发现其中抗性基因与感性基因的区别。
期刊