改进深度确定性策略梯度算法及其在控制中的应用

来源 :计算机科学 | 被引量 : 0次 | 上传用户：honeymelonk

【摘要】

：

深度强化学习往往存在采样效率过低的问题,优先级采样可以在一定程度上提高采样效率。将优先级采样用于深度确定性策略梯度算法,并针对普通优先级采样算法复杂度高的问题提出

【作者】

：

张浩昱熊凯

【机构】

：

北京控制工程研究所空间智能控制技术国家级重点实验室

【出处】

：

计算机科学

【发表日期】

：

2019年B06期

【关键词】

：

深度强化学习深度确定性策略梯度优先级采样方向控制 Deep reinforcement learning Deep deterministic polic

【基金项目】

：

北京市自然科学基金(4162070),国家自然科学基金(61573059)资助

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

深度强化学习往往存在采样效率过低的问题,优先级采样可以在一定程度上提高采样效率。将优先级采样用于深度确定性策略梯度算法,并针对普通优先级采样算法复杂度高的问题提出一种小样本排序的思路。仿真实验结果表明,这种改进的深度确定性策略梯度算法提高了采样效率,具有好的训练效果。将深度确定性策略梯度算法用于小车方向控制,相比于传统的PID控制,该算法避免了人工调整参数的问题,具有更广阔的应用前景。

其他文献

时域历程的数学模型

本文提出用功率谱法、对随机载荷作用下的部件进行疲劳寿命估计。我们采用付立叶变换方法进行频域到时域的变换、建立了时域历程的数学模型。用它来测算部件的疲劳寿命收到了

期刊

功率谱随机载荷付立叶变换疲劳寿命

载体好氧顶挂膜处理对厌氧附着膜膨胀床反应器的影响

期刊

废水处理厌氧附着膜膨胀床好氧顶挂膜

影响PTA半连联生产BHET产质量几个因素

本文对决定ＰＴＡ半连联工艺生产ＢＨＥＴ产质量的两个主要因素－－反应温度及分馏塔水集收速率的影响进行了分析。并提出了相应的改进措施。

期刊

BHET生产PTA半连联生产聚酯质量

充分利用档案资源,提高社会经济效益

期刊

档案档案资源经济效益

FCM融合改进的GSA算法在医学图像分割中的研究

医学图像由于具有复杂性,在对其进行图像分割时存在很大的不确定性,为了提高模糊c均值聚类算法(FCM)在处理医学图像分割时的性能,提出一种新的混合方法进行图像分割。利用FCM算法将图像像素分成均匀的区域,融合引力搜索算法,将改进的引力搜索算法纳入模糊c均值聚类算法中,以找到最优聚类中心,使模糊c均值聚类的适应度函数值最小,从而提高分割效果。实验结果表明,相对于传统的聚类算法,所提算法在分割复杂的医学

期刊

FCM引力搜索算法分割聚类中心FCMGravitational search algorithmSegmentationCluster cente

139＊94防羽布浆纱工艺优化筛选

期刊

防羽布浆纱工艺139＊94品种涤棉

谈谈新栽银杏的培育与管理

期刊

银杏培育管理

食品罐头厂污水的处理技术

期刊

污水处理食品罐头厂污水方法技术

软件定义网络控制平面的研究综述