改进深度确定性策略梯度算法及其在控制中的应用

来源 :计算机科学 | 被引量 : 0次 | 上传用户:honeymelonk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度强化学习往往存在采样效率过低的问题,优先级采样可以在一定程度上提高采样效率。将优先级采样用于深度确定性策略梯度算法,并针对普通优先级采样算法复杂度高的问题提出一种小样本排序的思路。仿真实验结果表明,这种改进的深度确定性策略梯度算法提高了采样效率,具有好的训练效果。将深度确定性策略梯度算法用于小车方向控制,相比于传统的PID控制,该算法避免了人工调整参数的问题,具有更广阔的应用前景。
其他文献
本文提出用功率谱法、对随机载荷作用下的部件进行疲劳寿命估计。我们采用付立叶变换方法进行频域到时域的变换、建立了时域历程的数学模型。用它来测算部件的疲劳寿命收到了
本文对决定PTA半连联工艺生产BHET产质量的两个主要因素--反应温度及分馏塔水集收速率的影响进行了分析。并提出了相应的改进措施。
医学图像由于具有复杂性,在对其进行图像分割时存在很大的不确定性,为了提高模糊c均值聚类算法(FCM)在处理医学图像分割时的性能,提出一种新的混合方法进行图像分割。利用FCM算法将图像像素分成均匀的区域,融合引力搜索算法,将改进的引力搜索算法纳入模糊c均值聚类算法中,以找到最优聚类中心,使模糊c均值聚类的适应度函数值最小,从而提高分割效果。实验结果表明,相对于传统的聚类算法,所提算法在分割复杂的医学
软件定义网络(Software-defined network,SDN)作为一种新兴的网络范式,通过解耦控制平面与数据转发平面,集中控制并且聚集全网视图,在控制平面与数据平面建立开放接口,启用外部
大量循环中都存在着少数无法向量化的语句以及许多可向量化语句,循环分布通常可以将这些语句分离到不同的循环中,进而实现循环的部分向量化。目前主流的优化编译器仅支持简单