基于拉普拉斯特征映射的启发式Q学习

来源 :控制与决策 | 被引量 : 0次 | 上传用户:zhaoyuanhappy2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在基于目标的强化学习任务中,欧氏距离常作为启发式函数用于策略选择,其用于状态空间在欧氏空间内不连续的任务效果不理想.针对此问题,引入流形学习中计算复杂度较低的拉普拉斯特征映射法,提出一种基于谱图理论的启发式策略选择方法.所提出的方法适用于状态空间在某个内在维数易于估计的流形上连续,且相邻状态间的连接关系为无向图的任务.格子世界的仿真结果验证了所提出方法的有效性. In the goal-based reinforcement learning task, the Euclidean distance is often used as a heuristic function in strategy selection, which is not ideal for tasks whose state space is not continuous in Euclidean space.In order to solve this problem, The complexity of Laplacian feature mapping method is low, a heuristic strategy selection method based on spectrogram theory is proposed. The proposed method is suitable for the state space to be continuous over a manifold whose interior dimension is easy to estimate and The connection between adjacent states is the task of undirected graph.The simulation results of lattice world verify the effectiveness of the proposed method.
其他文献
果桑已成为农业观光采摘园中深受游客喜爱的水果之一,种植面积逐年扩大,生产上普遍存在栽培管理水平低下的问题。本文根据万州区近年果桑种植的实践经验总结出包括合理搭配果
文中介绍了一种基于MAX6675实现PC机实时多路温度采集的系统.在本系统中,温度信号经热电偶感应、MAX6675模数转换、PIC单片机处理,传送给PC机进行数据显示、样本统计、绘图、
目的探索研究复合人参素与所含的人参多糖的药理作用进行比较。方法选取60只小鼠进行研究分析,将其随机分成3组,分别为对照组、复合人参素组及人参多糖组,平均每组20只小鼠。
随着科学技术的发展,以及对原子吸收光谱分析技术的深入研究,原子吸牧光谱法在各个领域都得到了很好的应用.该法具有测定灵敏度高、检出限低、选择性好、无基体干扰等特点.本
给出了一种适用于多种评价数据源的主成份分析方法模型,该方法模型以变换信息损失最小为准则选择对应不同的无量纲处理方法,以一定的累计方差贡献率为阀值确定评价主成份,依据主
虚拟成像技术是虚拟三维动画中一个重要的组成部分,也从对现实成像技术的模仿发展到现在成为虚拟三维动画实现超凡视觉效果的最重要环节。除了其所具备的模拟现实成像技术的
新月体肾炎是病理形态学病名,因肾小囊内大量新月体形成(占包曼囊表面积的50%以上)而致肾功能在短期内迅速恶化.常伴浮肿、少尿、血尿、高血压,甚至数周或数月进入终末期肾衰
在工作及其日常生活中,眼部烧伤时有发生,是烧伤中一种较为常见的类型。由于治疗难度较大,且视功能十分重要,稍有不慎就可能会造成眼球视功能的部分乃至全部丧失,出现严重后
双语教学已成为高校教育改革的一大焦点.结合开展双语教学工作,考虑到各方面因素,提出了武警学院开展双语教学的具体措施.
越来越多的临床科医师以及低年资的影像诊断医师希望在工作中实时、方便地获得医学影像诊断知识.医学影像存储与传输系统(picture archiving and communication systems,PACS