论文部分内容阅读
强化学习的优化目标是寻找最优动作序列,解决复杂环境中的决策问题。结合了深度神经网络,深度Q学习(Deep Q-Network,DQN)是一种经典的基于价值估计(Value-based Method)的深度强化学习方法。DQN以动作值函数Q估计为基础,利用贪婪策略获得能够实现最大化累计回报的决策。然而,在实际场景下训练和测试的强化学习问题的环境模型可能发生改变,以及强化学习和深度学习结合后难以准确和稳定地进行价值估计,都给深度强化学习带来了新的挑战。因此,如何提高价值估计方法的泛化能力,减小估计值的理论偏差是解决问题的关键。论文围绕深度强化学习中的动作值函数Q估计方法展开,针对在不同内在参数变化的环境之间泛化能力差异的问题,以及在相同环境中估计值与真实值是否存在偏差的问题进行研究分析。本文的主要工作内容可以概括为以下两个方面:
1、论文在DQN框架内提出了两种基于dropout正则化的动作值函数Q估计方法,并针对不同正则化的动作值函数Q估计方法在内在参数变化环境中的泛化能力进行分析讨论。本文选用了l1范数DQN,l2范数DQN,以及dropout正则化DQN作为基础的实验研究对象。实验发现,直接结合的dropout正则化DQN的损失函数不能随着训练的推进得到有效的收敛。根据DQN算法的特点,论文改变了DQN中dropout的计算方式,提出了改进dropout正则化DQN。在此基础之上,为了进一步加强DQN和dropout正则化结合网络的收敛性,提出了新dropout正则化DQN。论文选用了强化学习问题中两类代表性的控制学习任务,进行了大量的实验。结果表明,在样本数量有限的条件下,l1范数DQN,l2范数DQN,和论文提出的两种dropout正则化DQN均能在动作值函数Q估计中获得一定的泛化能力提升。
2、论文针对决斗结构网络中的动作值函数Q估计出现的偏差进行了理论分析和实验验证,并提出了基于加权最大-平均基准算子的相应改进方法。研究表明,利用同一特征网络结合独立的全连接层分别拟合状态值函数以及优势值函数更容易获得较好的动作值函数。论文通过理论分析表明,现有的决斗结构网络中合成估计动作值函数Q的方法存在不可消除的偏差。因此,根据偏差产生的原因本文提出了加权平均-最大基算子,利用该算子能调节偏差的大小,同时维护神经网络训练过程中的有效收敛。实验部分,改进决斗结构DQN还加入了Huber损失函数以及参数化PReLU。论文展示了大量关于改进方法在ALE中Atari2600像素游戏的得分曲线,实验结果显示所提出方法比原始的决斗结构DQN在大部分游戏中取得了更高的得分,验证了方法的有效性。
1、论文在DQN框架内提出了两种基于dropout正则化的动作值函数Q估计方法,并针对不同正则化的动作值函数Q估计方法在内在参数变化环境中的泛化能力进行分析讨论。本文选用了l1范数DQN,l2范数DQN,以及dropout正则化DQN作为基础的实验研究对象。实验发现,直接结合的dropout正则化DQN的损失函数不能随着训练的推进得到有效的收敛。根据DQN算法的特点,论文改变了DQN中dropout的计算方式,提出了改进dropout正则化DQN。在此基础之上,为了进一步加强DQN和dropout正则化结合网络的收敛性,提出了新dropout正则化DQN。论文选用了强化学习问题中两类代表性的控制学习任务,进行了大量的实验。结果表明,在样本数量有限的条件下,l1范数DQN,l2范数DQN,和论文提出的两种dropout正则化DQN均能在动作值函数Q估计中获得一定的泛化能力提升。
2、论文针对决斗结构网络中的动作值函数Q估计出现的偏差进行了理论分析和实验验证,并提出了基于加权最大-平均基准算子的相应改进方法。研究表明,利用同一特征网络结合独立的全连接层分别拟合状态值函数以及优势值函数更容易获得较好的动作值函数。论文通过理论分析表明,现有的决斗结构网络中合成估计动作值函数Q的方法存在不可消除的偏差。因此,根据偏差产生的原因本文提出了加权平均-最大基算子,利用该算子能调节偏差的大小,同时维护神经网络训练过程中的有效收敛。实验部分,改进决斗结构DQN还加入了Huber损失函数以及参数化PReLU。论文展示了大量关于改进方法在ALE中Atari2600像素游戏的得分曲线,实验结果显示所提出方法比原始的决斗结构DQN在大部分游戏中取得了更高的得分,验证了方法的有效性。