【摘 要】
:
基于马氏决策过程(Markov decision process,MDP)的动态系统学习控制是近年来一个涉及机器学习、控制理论和运筹学等多个学科的交叉研究方向,其主要目标是实现系统在模型复杂
【机 构】
:
国防科学技术大学机电工程与自动化学院自动化研究所,中国科学院自动化研究所,复杂系统智能管理与控制国家重点实验室,美国亚利桑那大学系统与工业工程学院,国防科学技术大学军事计算实验与平行系统技术研究中心
论文部分内容阅读
基于马氏决策过程(Markov decision process,MDP)的动态系统学习控制是近年来一个涉及机器学习、控制理论和运筹学等多个学科的交叉研究方向,其主要目标是实现系统在模型复杂或者不确定等条件下基于数据驱动的多阶段优化控制.本文对基于MDP的动态系统学习控制理论、算法与应用的发展前沿进行综述,重点讨论增强学习(Reinforcement learning,RL)与近似动态规划(Approximate dynamic programming,ADP)理论与方法的研究进展,其中包括时域差值学习理论、求解连续状态与行为空间MDP的值函数逼近方法、直接策略搜索与近似策略迭代、自适应评价设计算法等,最后对相关研究领域的应用及发展趋势进行分析和探讨。
其他文献
浸润线的高低作为尾矿坝稳定性监测的一个重要方面,现在工程中对于尾矿坝浸润线的监测手段有很多种,但探地雷达作为一种快速、无损的浸润线观测尚未得到广泛应用。本文主要通过
1980年前后,中国国民党史的研究开始在大陆重新展开,历经30年成果丰富,研究趋向从主要对中国国民党历史的回顾及梳理,开始向深层次的组织机理、结构功能发展。2007年,由南京大学中
为了筛选耐高温胁迫的优良小麦品种,采用盆栽与人工气候室相结合的方法,研究了花后高温胁迫对15个小麦品种产量和籽粒蛋白质含量的影响。结果表明,花后10 d和20 d高温处理分
本文简要地回顾了控制系统计算机辅助设计(CSCAD)的历史背景,描述了CSCAD中的硬件及软件体系的特点,简略介绍有关语言、监控、管理和作业安排方面的软件,并对功能软件的种类
小麦花药培养技术是小麦产生单倍体的主要途径,该技术具有稳定杂种性状、缩短育种年限、提高选择效率、克服远缘杂交不育和分离等优点。大量研究表明,单核中晚期花药接种在C1
云计算是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需提供给计算机和其他设备。参考文献管理软件在云计算环境下,能够更好地为用户提供文献管理
目的:探讨3D技术打印导航板在椎间孔镜下腰椎髓核摘除术中应用的可行性及效果。方法:回顾性分析2016年1月~2017年1月在我院采用椎间孔镜下腰椎髄核摘除术治疗单节段腰椎间盘突
目的研究豚鼠膀胱Cajal样间质细胞的分布、超微结构特点并探讨其功能。方法选择健康豚鼠10只,利用激光共聚焦显微镜和透射电镜观察膀胱Cajal样间质细胞在肌层的分布和结构特
主要研究了以二甲基二烯丙基氯化铵(DADMAC)、不饱和有机酸M、有机胺类功能单体P为原料合成两性聚合物,该两性聚合物与AKD配合使用可大大提高施胶速率,降低AKD施胶滞后现象。