连续空间非参函数逼近方法研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:wuqianlan987654
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是一种试错学习,可解决无模型问题,在没有任何先验知识的情况下,Agent通过与环境不断交互实现基于自身经验的学习。本文研究的是连续状态动作空间的问题,传统的解决方法是离散化状态或动作空间,为了保证一定的精度,离散化方法会导致状态动作空间非常大,从而引起“维数灾”。本文提出三种基于行动者-评论家(Actor-Critic,AC)架构的算法,其中Critic部分使用非参函数逼近来解决连续状态空间“维数灾”问题,Actor部分使用策略梯度寻找动作。(1)针对已有的非参方法存在样本利用率低的问题,提出了一种基于核的递归最小二乘AC算法。行动者部分给出了一种基于核的策略梯度算法,在估计策略梯度时,用核函数逼近器逼近真实的Q值。评论家部分提出了一种基于ALD的KRLSTD-Q算法,在消除了矩阵的逆运算同时,可以充分利用样本信息。通过Mountain Car的仿真实验验证了算法的有效性。(2)鉴于高斯核函数的有效性,提出了一个基于最小二乘支持向量回归(LSSVR)的AC算法。该算法的行动者部分使用的是策略梯度算法,为了使该算法具有可行性,提出了一种在策略评估样本集和策略改进样本集上协调工作的方式。使用ALD方法稀疏化策略评估样本集,产生数据字典。评论家用LSSVR方法在数据字典上回归V值函数,行动者在策略改进样本集上改进策略。(3)前两种算法都是离线的,针对离线方法不具有实时性的问题,提出了一种基于GPTD的在线AC算法。该算法的行动者部分提出了一种在线的策略梯度算法,能够适应核的增长,从而适用于非参算法中的在线学习。评论家部分使用在线的GPTD算法实时地评估行动者产生的动作。
其他文献
血浆单采机是近些年来飞速发展的医疗设备,单采血浆是采集血液中的血浆成分(采用不受污染的蠕动泵技术来输送血液,利用高速旋转的离心机将血液中的血浆成分分离出来的技术,而把剩余成分还输回人体的血浆采集方式),所采集的血浆在临床中用来对多种疾病进行治疗。采用这种方式来采集血浆,可以有效的改善供者的血液利用率,降低血液费用。这种采集方式是现阶段血库发展的新趋势,医院、血库、医疗机构和医疗设备制造商正逐渐涉及
近年来,随着云计算技术的飞速发展,深刻的影响到了信息存储与检索服务,云存储作为一种服务,可以使得用户通过网络将数据方便快捷地存储在云服务器端。当大量的企业和个人将他
目前,智能视频监控领域飞速发展,视频监控应用到日常生活中的方方面面。智能视频监控就是使用计算机视觉和图像处理的相关处理方法,将图像中的待检测目标检测出来,对图像中待
不可否认服务已经渗透到各种网络应用中,特别是与人们生活息息相关的电子商务、电子邮件等方面。提供有效的、完善的不可否认服务成为网络安全领域的研究热点。不可否认服务由
属性约简是信息智能化处理研究的核心内容之一。近年来,Pawlak提出的粗糙集理论在属性约简方面展现出巨大的优势。然而,当数据集较大时,许多约简算法效率不高,如何快速有效地
树木作为一种常见的景观模型,在自然场景的模拟中得到了广泛的应用,如何快速绘制出具有真实感且在大规模场景中具有较高绘制效率的树木已成为计算机图形学研究的一个热点与难
消费电子产业及制造工业的高速发展对嵌入式系统的性能,规模,安全,系统利用率等方面提出了高要求。针对日益复杂的嵌入式系统,一系列应用于传统桌面及服务器领域的高新技术也
进入信息化社会后,强大的网络需求一直督促网络结构不断发生变化。为了满足这一需求,提出了立方体网络的概念,其中超立方体网络是一种最受欢迎的新型网络结构。很多学者针对
密码认证是应用最广泛的认证技术,它存在被遗忘、被破解的天然弊端。特别是随着互联网系统数量爆发式的增长,它给用户带来的记忆成本迅速增大,同时一旦密码被泄,用户将面临更
医学图像三维重建技术的目标是对人体器官和组织进行立体式可视化分析。近年来已经成为医学图像处理与分析领域的研究热点。这种技术对于临床医生观察人体内部组织和病灶提供