基于改进策略梯度方法的游戏智能研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户：xumin7777

【摘要】

：

目前研究人员大多把目光放在以深度Q网络(Deep Q Network,DQN)为代表的基于价值的强化学习算法,忽视了理论更为坚实和更新过程更为直观的基于策略方法。本文通过对增强算法(R

【作者】

：

张世龙

【出处】

：

华南理工大学

【发表日期】

：

2004年期

【关键词】

：

机器学习深度强化学习策略梯度增强学习游戏智能

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

目前研究人员大多把目光放在以深度Q网络(Deep Q Network,DQN)为代表的基于价值的强化学习算法,忽视了理论更为坚实和更新过程更为直观的基于策略方法。本文通过对增强算法(Reinforce)等基于策略的一类方法做出研究思考和优缺点分析,提出熵正则化与经验池增强算法(Entropy Regularization and Experience Replay Reinforce,2ER-Reinforce)算法,并探讨在不同重要超参数的改变下对实验结果的影响。最后对实验结果进行展示,并通过训练一个模拟人类玩Atari游戏的智能体证明2ER-Reinforce算法的性能得到提高。本论文主要工作如下:(1)介绍深度强化学习的研究背景及意义,并列举其在游戏及商业中的应用;(2)简述马尔可夫决策过程的概念,为强化学习的研究制定框架。重点阐述有模型学习中的Bellman等式与动态规划求解方法,从而导出策略迭代和值迭代的策略改进方法,为之后章节的免模型学习提供理论基础;(3)简述强化学习中的免模型学习基础知识,主要涉及基于价值的算法。阐述并比较了蒙特卡罗方法与时序差分学习的异同,引出著名的Sarsa算法、Q-学习(Q-Learning)算法和对Q-Learning算法改进得到的DQN算法;(4)提出改进的2ER-Reinforce算法并将其应用到视频游戏领域中,实验的成功证明了2ER-Reinforce算法具有实际意义。先对Reinforce算法的优缺点进行分析,结合经验池与熵正则化技巧提出改进的2ER-Reinforce算法;然后以Atari系列的Pong游戏作为测试环境,多角度比较四种算法的性能,并对若干超参数不同取值对训练效果的影响做出探讨;接着展示游戏智能的表现,最后对算法学习与人类学习的思考模式做出思考与比较。

其他文献

合作理论视域下的中国多党合作制度

中国多党合作制度就是中国共产党领导的多党合作和政治协商制度,是中国的一项基本政治制度,是符合中国国情的社会主义政党制度,它的产生、形成、发展是一种历史和现实的选择

期刊

合作理论竞争型政党制度合作型政党制度中国多党合作制度

我国当前大学生公民责任意识培养问题研究

德为立身之本，责任感为成功之基。培养公民的责任感，对社会主义现代化建设，构建和谐社会具有重要而深远的意义。公民责任意识是由公民资格赋予，对自己和他人，对家庭和集体，对国家和

学位

大学生公民责任意识教育培养问题路径

宁波帮研究八十年历史的回顾(之二)

80年来宁波帮研究经过4个阶段。20世纪20年代中期至1949年是第一阶段,宁波帮研究资料少,比较零星分散。中华人民共和国建立至1978年是第二个阶段,宁波帮研究有一个曲折发展过

期刊

八十年宁波帮研究回顾

糖尿病时KATP通道对心肌缺血预适应的影响

糖尿病时心脏KATP通道活性的降低或消失 ,可能是影响糖尿病患者心肌缺血预适应保护作用的重要原因。糖尿病时KATP通道基因突变、晚期糖基化终末产物生成增多、能量代谢紊乱、

期刊

糖尿病缺血预处理心肌钾通道

大肠癌肝转移中蛋白质差异表达及其意义

目的：应用表面增强激光解吸电离飞行时间质谱蛋白质芯(SELDI-TOF-MS)联合激光显微切割(LCM)技术筛选大肠癌及其肝转移标志蛋白，探讨大肠癌特异性标志物，为大肠癌及其肝转移的早

学位

SELDI-TOF-MS激光捕获显微切割大肠癌肝转移蛋白质组学

大学生网络学习能力培养研究

随着信息技术的发展、数字网络的普及，人们的日常生活和学习也受其影响，逐渐发生着改变。通过相关文献的研究与调查问卷发现，当前大学生的网络学习能力低下，终身教育观念淡薄，技能

学位

网络学习指标体系网络学习能力

小儿推拿术的临床运用——学习青岛市中医院小儿科医师李德修老先生的驗经后的体会

<正> (一) 引言推拿术为祖国医学中的一种理疗方法,孯允址ㄍ庵我婇L,操作簡單,疗效确实,此种手法之由来,实源于古代之按摩。考按摩之用于治疗,內經中曾有明确記载,如素问阴阳

期刊

李德修推拿术外劳宫青岛市中医院临床运用小儿科

宁波帮的发展及宁波人文特点研究

对近代宁波商帮崛起的原因进行了分析,并研究了当代宁波商帮发展的情况。通过近代、当代宁波帮的比较研究,创新地提出宁波的人文特点,即粘性,搏争,仁厚,务实,这四个词的第1个

期刊

宁波帮宁波发展人文特点

论宁波帮精神──宁波帮精神的一种历史诠释

以开放、开拓、诚信、创业、团结合作为核心的宁波帮精神是宁波帮经久不衰、生生不息的根本原因所在,也是当代宁波精神的源头活水,值得今日宁波人加以继承与弘扬。

期刊

宁波帮精神形态行为规范

宁波帮研究八十年历史的回顾(之三)

期刊

八十年宁波帮研究回顾

基于改进策略梯度方法的游戏智能研究

其他学术论文