基于动态延迟策略更新的TD3算法

来源 :吉林大学学报:信息科学版 | 被引量 : 0次 | 上传用户:cunkjiang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在深度强化学习领域中,为进一步减少双延迟深度确定性策略梯度TD3(Twin Delayed Deep Deterministic Policy Gradients)中价值过估计对策略估计的影响,加快模型学习的效率,提出一种基于动态延迟策略更新的双延迟深度确定性策略梯度(DD-TD3:Twin Delayed Deep Deterministic Policy Gradients with Dynamic Delayed Policy Update)。在DD-TD3方法中,通过Critic网络的最新Loss
其他文献
研制了高功率Nd: YAG倍频绿光激光器,用类高斯光束分析了腔长对激光功率的影响,采用新型径向调整式光学镜片调整架,优化腔长为390 nm,KTP晶体内腔倍频,并设置声光Q开关,获得5
本文介绍了有600个通道、通道间隔为25 GHz的光波分复用器.该波分复用器是由1个8通道间隔为1.875 THz的母阵列波导光栅(AWG)和4个128×128的通道间隔为25 GHz的子阵列波
通过对信管专业人才培养现状和问题的分析,指明了信管专业结合高校办学特色的人才培养目标,并提出了人才培养模式的一些建议。以科技创新体系作为导向,将传统信管专业的课程
面对社区的环境问题,相关环保主管部门在常规环境监察执法的过程中有时忽视环境问题利益各方的沟通与交流,公众缺乏知情权和参与机会,不利于环境问题的彻底解决,不能有效消除
传统的基于图的流行排序算法,仅利用图像的边界作为背景查询,其查询选择的准确率直接影响算法的结果,为此提出一种改进算法,利用现有算法的检测结果为基础,对前景与背景种子点的选取进行优化。首先,对图像进行超像素分割,充分利用图像的中层信息;其次,对图像利用流行排序算法计算图像显著图;最后,对显著性结果进行处理,选取更优的查询点,得到最终显著图。在CSSD(Complex Scene Saliency D
建立电力密集波分复用(DWDM)通信网,能更好地保证电力网络的高效生产、运行、调度和维护.前向纠错技术(FEC)能有效增强DWDM光纤通信系统的性能,从而可以解决超常跨段DWDM+EDF
针对传统大数据并行挖掘方法是一次性对所有数据进行挖掘,导致挖掘时间较长,挖掘精度较低等问题,采用量子计算对增量式大数据并行挖掘方法进行优化设计。首先,按照数据挖掘的
支持向量机(SVM:Support Vector Machine)是定义在特征空间上的间隔最大的线性分类器,参数的选择决定了其学习性能和泛化能力。针对此参数选择问题,采用改进的涡流搜索算法对
按生产要素贡献分配要成为现实,必须努力完善三个方面的基础性条件:统一开放竞争有序的现代市场体系;健全的社会信用体系;完善的宏观调控体系。
摘要:邓小平理论中蕴涵着丰富的和谐思想,体现在经济、政治、文化、外交各个方面,成为当代和谐理论的重要思想渊源之一。深入挖掘和系统整理邓小平的“和谐”思想,对于当代社会主义建设有着重要的理论意义和实践意义。  关键词:邓小平;和谐思想;经济;政治;文化;外交  中图分类号:A849文献标志码:A文章编号:1673-291X(2010)22-0204-02    邓小平建设有中国特色社会主义理论中蕴涵