【摘 要】
:
针对不确定环境的规划问题,提出了基于预测状态表示的Q学习算法.将预测状态表示方法与Q学习算法结合,用预测状态表示的预测向量作为Q学习算法的状态表示,使得到的状态具有马
论文部分内容阅读
针对不确定环境的规划问题,提出了基于预测状态表示的Q学习算法.将预测状态表示方法与Q学习算法结合,用预测状态表示的预测向量作为Q学习算法的状态表示,使得到的状态具有马尔可夫特性,满足强化学习任务的要求,进而用Q学习算法学习智能体的最优策略,可解决不确定环境下的规划问题.仿真结果表明,在发现智能体的最优近似策略时,算法需要的学习周期数与假定环境状态已知情况下需要的学习周期数大致相同.
其他文献
为了提高学生的交际能力,教学中教师应充当引导者的角色,活跃课堂气氛,改进教学方法,激发学生的参与意识,满足学生用英语交际的需要.该文主要探讨了大学英语教学现状以及具体
网络化由于时效性强、信息量大、影响面广以及良好的交互性而成为编辑与出版行业的重要工具.该文论述了网络化对期刊发展的巨大影响,对期刊编辑提出了更高的要求.
收入差距的扩大已成为现阶段改革开放过程中亟待解决的问题。本文将就非自然因素造成的收入差距进行分析,进而提出矫正对策,以化解由此造成的经济社会风险,切实实现效率优先、兼
中国加入WTO后,经济的全球化带动了文化与世界的接轨,纯文学期刊的市场变革也紧随其后开始启动。因此,如何在文化全球化时代与读者的文化需求同步,如何在激烈的行业竞争中寻
针对协议安全测试中数据流的描述问题,在构造类别代数的基础上引入变异分析,由此提出了一种协议安全测试方法.基于协议的描述设计了变异算子,然后对一致性公式集进行变异分析,从而得到安全变异项集.将变异项转换为实际的安全测试例集,并描述由此进行的协议安全测试步骤.测试实践表明,所提方法能与一致性测试良好地结合,在一定程度上覆盖已知安全漏洞,并具有发现潜在问题的能力.
目前,医学研究生教育的主要目标是培养出具有良好临床实践能力和科研能力的高素质综合型人才。随着教育部推进"双轨合一"培养模式的开展,专业学位硕士研究生的临床实践能力得
‘#赢i蠢囊!”蛰哪’:菇、籍旌翳鬻鬻孽攀繁震誊鬻藜囊i燃黼蒸《瓣≮舔黼媾鬻戮蠢器搿黼搿群∞ij;.I.._iⅥ.^鲤l黼麟鬻鬻m黼薹需麓iii^i;y《》~张激}x~‘v#“麓糍霪器Ⅲ篱删灞