基于策略梯度的深度强化学习算法优化

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:qiuyueguangxuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是机器学习领域的一个重要分支,它通过模拟生命体大脑的学习思维模式来学习行动策略。与传统的学习方法不同,强化学习中的智能体在学习时不被直接告知需要采取哪些行动,而是得到这些行动带来的即时奖励学习一个策略最大化这些奖励。通过“试错”和“延迟奖励”这两种方式,强化学习能够处理很多传统机器学习很难处理的高交互性,决策性问题。深度强化学习在强化学习的基础上,把深度神经网络运用到其中。这可以解决传统强化学习只能处理动作空间和样本空间很小的数据的问题。其中,基于确定性策略梯度的深度强化学习算法则解决了连续的动作空间的数据问题。在这类算法中,比较著名的就是DDPG算法。然而DDPG算法存在过高估计所采取动作对应的累积回报值的问题和训练过程中策略波动过大的问题。TD3算法是基于DDPG算法的改进,但是它对所采取动作对应的累积回报值仍有估计不准确。同时在TD3的训练过程的策略的波动也很大。本文针对上面两个问题,分别提出了两种改进算法。针对累积奖励值仍有估计不准确的问题,本文提出了λ-TD3算法。TD3算法用了两个Q网络取最小值来改善过估计。然而这种方式可能导致低估计。在λ-TD3算法中,基于TD误差定义了一个判断当前情况高估还是低估累积奖励的评估指数δ,并通过δ的值加权累计两个Q值。δ可以通过训练中的奖励来自适应调节自己的值。针对策略波动过大的问题,本文提出基于TD3的策略协同算法TD3++。该算法采用了两个策略网络协同选择策略,选择出奖励期望更高的动作,另外还给策略网络加入了dropout,这种改进方法可以解决TD3的策略波动问题,增加算法的稳定性。本文在MoJuCo连续动作控制任务上对λ-TD3和TD3++进行了仿真实验。实验结果表明上述两种改进算法都取得了不错的效果。
其他文献
Spiking神经网络(SNN),作为第三代人工神经网络(ANN),模拟了大脑中神经元的信息处理方式,具有高度的仿生性和生物可解释性。相比于第一代ANN(使用M-P模型作为网络的计算单元)和第二代ANN(通过非线性的激活函数来处理线性不可分问题),SNN因为其独特的信息编码和处理的方式,具有更强大的计算能力。但是目前常见的SNN模型在计算上都非常复杂,不利于网络模型的扩展,而且也缺乏比较高效的算法
随着深度学习方法的不断突破,计算机辅助诊断技术在医学影像分析领域得到越来越多的发展。医学影像分析作为计算机辅助诊断技术的关键,其依赖的是基于图像处理技术的深度学习方法,本文涉及的膀胱镜肿瘤影像分析更是依赖基于深度卷积神经网络的多目标检测方法。但膀胱镜检影像样本和标签数量无法摆脱欠缺的问题,面临着小样本场景下的膀胱肿瘤感知技术难题。本文立足于深度卷积神经网络,从小样本场景的多目标分类和检测着手,重点
近年来,深度神经网络模型已经能在各种分类任务中达到很高的准确率,然而最近的研究表明,深度神经网络容易受到对抗样本的攻击,攻击者只需在干净样本中添加一些人眼无法识别的微小扰动,就可以生成对抗样本,从而轻易地使深度神经网络模型对其产生错误分类,随着深度神经网络广泛应用于各个领域,对抗样本使这些深度神经网络系统面临巨大的安全威胁。因此,为了减少对抗样本对神经网络的影响,提高神经网络的鲁棒性,对深度神经网
随着智能交通系统的不断发展,我国的交通管理也在不断进步,现已有很多城市普及安装了一体化自动识别车牌系统。车牌识别是智能交通重要的一环,往往起决定性作用。车牌识别应用现状主要在固定的条件下进行,如对小区门口进出车辆的车牌识别。随着适用场景范围的扩大,车牌识别技术面临着更多的问题。目前,摄像头拍摄的图像采集技术已经相当成熟了,但当应用场景的需求扩大后,车牌定位和识别技术仍然需要进一步发展。随着人工智能
命名实体识别和关系抽取是自然语言处理领域中两项主要的信息抽取任务,旨在从无结构文本中抽取实体和关系,由它们共同组成的关系三元组可以直接应用于知识图谱的构建,同时也在信息检索、问答系统等上层应用中起着至关重要的作用。通过对现有算法的设计思路和建模机制进行深入分析后,发现这些方法存在以下几个不足之处:第一,传统研究方法将命名实体识别和关系抽取以管道的方式分两步处理,采用两套不同的模型结构及参数,割裂了
语音识别系统已经成为了人们工作、学习和生活中行之有效的工具。智能手机微信的语音输入辅助、智能家居的声控电视、声控的行车导航系统和自动会议语音转录系统等都是它可以被应用的场景。但语音识别系统仍有不少瑕疵,这使它不能很好的落地和应用到需要的场景中去。变化的噪声类型、低信噪比和说话人种类等声学条件极大地影响了语音识别系统的性能。因此,一个好的语音增强模块可以成为语音识别系统重要的前端。但是,基于映射的语
卷积神经网络近几十年有了很大的进展,性能越来越强劲,应用场景越来越多。但是与此同时,卷积神经网络的结构也变得越来越宽,越来越深,参数量越来越大,这对运行该卷积神经网络的设备的算力和内存资源也提出了要求。这种情况很大程度上阻碍了其实际应用。因此,对神经网络模型进行压缩,使得性能优异的神经网络模型也能在资源有限的条件下使用,这对于深度学习算法的应用意义重大。在本文中,我们提出了两个对卷积神经网络的结构
近年来,伴随着生成对抗网络的进一步发展,我们日常生活中的越来越多现象都可以结合生成对抗网络来进行“智能创造”,比如图像领域中的从语义生成图片、图片风格化、图片特征编辑等创新型工作。本文则是对图片特征编辑这个领域中的人脸老化/年轻化预测的工作进行系统性的探究。在调研了国内外近年来的相关研究课题后我们发现,当前的人脸老化/年轻化预测算法还存在着生成图片清晰度不够、个人身份特征在转换过程中损失较严重、年
Spiking神经网络(SNN)模仿了大脑中神经元通过自适应的突触连接发射脉冲进行信息转换的机制,被誉为第三代神经网络。相比依赖高耗能图形卡进行训练的传统神经网络,由于脉冲(spike)在时间和空间上是稀疏的,Spiking神经网络可以通过低功耗的专用硬件进行实现。Spiking神经网络已被用于图像识别,目标检测和语音识别等领域。如何让Spiking神经网络达到媲美传统神经网络的表现是目前研究的热
随着科技的快速发展,现代技术的不断更新交替,出现了越来越多复杂智能电子设备。但在长期使用智能电子设备的过程中往往伴随着出现一定程度的损耗和故障,所以对电子设备进行故障预测成为了工业运用领域关注的重点和难点,在学术界也对其出现的难题进行了大量的研究。在现阶段中,对于处理时间序列,许多方法都是利用点过程或者传统的时间序列处理方法进行时间预测。这往往需要高质量的数据和提前设定好参数化的模型并设定一定范围