深度强化学习中的动作值函数Q估计方法研究

来源 :北京化工大学 | 被引量 : 0次 | 上传用户:bbs_lijun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习的优化目标是寻找最优动作序列,解决复杂环境中的决策问题。结合了深度神经网络,深度Q学习(Deep Q-Network,DQN)是一种经典的基于价值估计(Value-based Method)的深度强化学习方法。DQN以动作值函数Q估计为基础,利用贪婪策略获得能够实现最大化累计回报的决策。然而,在实际场景下训练和测试的强化学习问题的环境模型可能发生改变,以及强化学习和深度学习结合后难以准确和稳定地进行价值估计,都给深度强化学习带来了新的挑战。因此,如何提高价值估计方法的泛化能力,减小估计值的理论偏差是解决问题的关键。论文围绕深度强化学习中的动作值函数Q估计方法展开,针对在不同内在参数变化的环境之间泛化能力差异的问题,以及在相同环境中估计值与真实值是否存在偏差的问题进行研究分析。本文的主要工作内容可以概括为以下两个方面:
  1、论文在DQN框架内提出了两种基于dropout正则化的动作值函数Q估计方法,并针对不同正则化的动作值函数Q估计方法在内在参数变化环境中的泛化能力进行分析讨论。本文选用了l1范数DQN,l2范数DQN,以及dropout正则化DQN作为基础的实验研究对象。实验发现,直接结合的dropout正则化DQN的损失函数不能随着训练的推进得到有效的收敛。根据DQN算法的特点,论文改变了DQN中dropout的计算方式,提出了改进dropout正则化DQN。在此基础之上,为了进一步加强DQN和dropout正则化结合网络的收敛性,提出了新dropout正则化DQN。论文选用了强化学习问题中两类代表性的控制学习任务,进行了大量的实验。结果表明,在样本数量有限的条件下,l1范数DQN,l2范数DQN,和论文提出的两种dropout正则化DQN均能在动作值函数Q估计中获得一定的泛化能力提升。
  2、论文针对决斗结构网络中的动作值函数Q估计出现的偏差进行了理论分析和实验验证,并提出了基于加权最大-平均基准算子的相应改进方法。研究表明,利用同一特征网络结合独立的全连接层分别拟合状态值函数以及优势值函数更容易获得较好的动作值函数。论文通过理论分析表明,现有的决斗结构网络中合成估计动作值函数Q的方法存在不可消除的偏差。因此,根据偏差产生的原因本文提出了加权平均-最大基算子,利用该算子能调节偏差的大小,同时维护神经网络训练过程中的有效收敛。实验部分,改进决斗结构DQN还加入了Huber损失函数以及参数化PReLU。论文展示了大量关于改进方法在ALE中Atari2600像素游戏的得分曲线,实验结果显示所提出方法比原始的决斗结构DQN在大部分游戏中取得了更高的得分,验证了方法的有效性。
其他文献
摘 要:城镇综合实力是城镇发展水平最重要、最有效的衡量标准之一。以张家港地区的8个城镇为研究对象,建立一套基本的经济指标体系,运用主成分分析的方法对各城镇的经济状况进行计算和比较,得出张家港市各城镇的综合实力值及排名情况,并基于分析结果对该地区各城镇的经济情况和发展方向提出建议。  关键词:主成分分析;降维;综合实力;评价  中图分类号:F299.1 文献标志码:A 文章编号:1673-291X(
期刊
摘 要:运用Erdas Imagine 2010软件和Landsat TM 遥感影像,对吉林省吉林市Lndsat-7影像的光谱进行分析,通过选择波段、拼接裁剪和监督分类三个步骤,将吉林市土地利用类型分为五类。通过分析得到的数据,指出吉林市土地利用中存在的问题,并提出调整对策。  关键词:LANDSAT 遥感影像;土地利用;监督分类  中图分类号:F320 文献标志码:A 文章编号:1673-291
期刊
摘 要:以沈阳市为例,分析沈阳各区10—11月份商品住宅市场情况,其中,沈河区、和平区、皇姑区因其地理优势房价最高,浑南区因政府南迁而成为11月份的销售热点区,整体房价呈上升趋势。通过分析沈阳市房地产发展现状,探索影响房价的主要因素,其中,国家政策占主导,其次是居民收入水平,城市化水平也影响着房地产经济的发展。  关键词:房地产市场;发展现状;影响因素  中图分类号:F293.3 文献标志码:A
期刊
摘 要:近年来,在我国就业形势日趋严峻的大环境下,新疆处于西北边陲,大学生就业形势也不容乐观,新疆高校大学生就业问题关系到西部大开发战略的实施与社会稳定,并且新疆大学毕业生就业问题还具有一些地域性特点。解决新疆大学生就业问题不仅对于建设创新型地区具有重要意义,而且对于建设和谐新疆也具有积极意义。根据对新疆大学生就业意向的调查,分析影响新疆大学生就业的因素和存在的问题,并提出解决建议。  关键词:新
期刊
摘 要:从奥尔森集体行动逻辑的角度来看,农民专业合作社社员“搭便车”行为实际体现的是社员与合作社的矛盾、“个人理性”与“集体理性”的矛盾,为了对社员“搭便车”行为进行更一般的解释,引入了合作社社员之间的博弈模型,最后基于集体行动逻辑视角提出“搭便车”行为的解决途径来更好地实现集体行动和促进农民专业合作社发展。  关键词:农民专业合作社;“搭便车”;集体行动逻辑  中图分类号:F320 文献标志码:
期刊
摘 要:现代产业体系突破了传统产业体系下产业间的联系方式,是转变经济发展方式的重要产业载体。构建现代产业体系依赖于内外部两个方面的动力及其相互协调。目前,河南在构建过程中取得了一些成就,但也存在创新不足、产业层次较低等问题,为此可以从内部动力外部动力及两方面的协调拉动,优化决策,构建现代产业体系。  关键词:现代产业体系;内部动力;外部动力;优化策略  中图分类号:F260 文献标志码:A 文章编
期刊
摘 要:随着中国经济的快速发展,上市公司高管薪酬一直是各方关注的焦点。对2006—2011年六年内中国制造业上市公司的高级管理人员的薪酬状况和影响因素进行分析,发现,中国制造业上市公司高管的薪酬与公司绩效、企业规模和公司所在地区的市场环境有关,具体的影响关系是:高管薪酬与公司绩效和公司规模存在正相关关系,与公司所在地区的市场环境存在负相关关系,与高管持股比例相关性不显著。  关键词:高管薪酬;公司
期刊
摘 要:从劳动者素质促进企业和行业经济效益增长的理论分析出发,以浙江省第三产业从业人员素质的数据实证分析第三产业劳动者素质与经济效率的正相关关系,提出从保证财政性教育经费投入、大力发展职业教育、强化员工培训、注重培养中高级技能人才等四个方面来提升第三产业劳动者素质。  关键词:劳动者素质;经济效率;教育;培训  中图分类号:F240 文献标志码:A 文章编号:1673-291X(2014)04-0
期刊
摘 要:内部审计以企业价值增长为目标,是时代发展的要求,更是公司治理结构发展的结果。结合中国人寿内部审计的发展历程,浅析内部审计增值服务功能产生的背景、发挥内部审计增值服务功能的条件、实现内部审计增值服务功能的途径。  关键词:内部审计;增值服务;背景;条件;途径  中图分类号:F239.4 文献标志码:A 文章编号:1673-291X(2016)03-0107-02  一、内部审计增值服务功能产
期刊
摘 要:现今文化产业已逐渐成为综合国力竞争中的一项重要的软实力体现。针对目前中国地方文化资源利用不充分、边际收益低的现实,考虑以山地文化开发为基点,探索山地文化资源的开发模式和发展方向。充分发掘文化资源的经济价值和社会价值,利用文化资源与现代市场经济的联系,使其兼备文化意识属性与商品属性。基于模块网状价值链视角展开研究,从时间、空间、产业三个维度对地方文化资源增值路径进行探析,选取云南省大理州祥云
期刊