基于改进策略梯度方法的游戏智能研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:xumin7777
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前研究人员大多把目光放在以深度Q网络(Deep Q Network,DQN)为代表的基于价值的强化学习算法,忽视了理论更为坚实和更新过程更为直观的基于策略方法。本文通过对增强算法(Reinforce)等基于策略的一类方法做出研究思考和优缺点分析,提出熵正则化与经验池增强算法(Entropy Regularization and Experience Replay Reinforce,2ER-Reinforce)算法,并探讨在不同重要超参数的改变下对实验结果的影响。最后对实验结果进行展示,并通过训练一个模拟人类玩Atari游戏的智能体证明2ER-Reinforce算法的性能得到提高。本论文主要工作如下:(1)介绍深度强化学习的研究背景及意义,并列举其在游戏及商业中的应用;(2)简述马尔可夫决策过程的概念,为强化学习的研究制定框架。重点阐述有模型学习中的Bellman等式与动态规划求解方法,从而导出策略迭代和值迭代的策略改进方法,为之后章节的免模型学习提供理论基础;(3)简述强化学习中的免模型学习基础知识,主要涉及基于价值的算法。阐述并比较了蒙特卡罗方法与时序差分学习的异同,引出著名的Sarsa算法、Q-学习(Q-Learning)算法和对Q-Learning算法改进得到的DQN算法;(4)提出改进的2ER-Reinforce算法并将其应用到视频游戏领域中,实验的成功证明了2ER-Reinforce算法具有实际意义。先对Reinforce算法的优缺点进行分析,结合经验池与熵正则化技巧提出改进的2ER-Reinforce算法;然后以Atari系列的Pong游戏作为测试环境,多角度比较四种算法的性能,并对若干超参数不同取值对训练效果的影响做出探讨;接着展示游戏智能的表现,最后对算法学习与人类学习的思考模式做出思考与比较。
其他文献
中国多党合作制度就是中国共产党领导的多党合作和政治协商制度,是中国的一项基本政治制度,是符合中国国情的社会主义政党制度,它的产生、形成、发展是一种历史和现实的选择
德为立身之本,责任感为成功之基。培养公民的责任感,对社会主义现代化建设,构建和谐社会具有重要而深远的意义。公民责任意识是由公民资格赋予,对自己和他人,对家庭和集体,对国家和
80年来宁波帮研究经过4个阶段。20世纪20年代中期至1949年是第一阶段,宁波帮研究资料少,比较零星分散。中华人民共和国建立至1978年是第二个阶段,宁波帮研究有一个曲折发展过
糖尿病时心脏KATP通道活性的降低或消失 ,可能是影响糖尿病患者心肌缺血预适应保护作用的重要原因。糖尿病时KATP通道基因突变、晚期糖基化终末产物生成增多、能量代谢紊乱、
目的:应用表面增强激光解吸电离飞行时间质谱蛋白质芯(SELDI-TOF-MS)联合激光显微切割(LCM)技术筛选大肠癌及其肝转移标志蛋白,探讨大肠癌特异性标志物,为大肠癌及其肝转移的早
随着信息技术的发展、数字网络的普及,人们的日常生活和学习也受其影响,逐渐发生着改变。通过相关文献的研究与调查问卷发现,当前大学生的网络学习能力低下,终身教育观念淡薄,技能
<正> (一) 引言推拿术为祖国医学中的一种理疗方法,孯允址ㄍ庵我婇L,操作簡單,疗效确实,此种手法之由来,实源于古代之按摩。考按摩之用于治疗,內經中曾有明确記载,如素问阴阳
对近代宁波商帮崛起的原因进行了分析,并研究了当代宁波商帮发展的情况。通过近代、当代宁波帮的比较研究,创新地提出宁波的人文特点,即粘性,搏争,仁厚,务实,这四个词的第1个
以开放、开拓、诚信、创业、团结合作为核心的宁波帮精神是宁波帮经久不衰、生生不息的根本原因所在,也是当代宁波精神的源头活水,值得今日宁波人加以继承与弘扬。
80年来宁波帮研究经过4个阶段。20世纪20年代中期至1949年是第一阶段,宁波帮研究资料少,比较零星分散。中华人民共和国建立至1978年是第二个阶段,宁波帮研究有一个曲折发展过