递阶再励学习中Option的自动发现与生成

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:coralbird
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Option的自动发现与生成是递阶再励学习的难点之一,论文提出探索密度检测(ED)法,通过检测状态空间中的探索密度来发现并构建Option。和现有的方法相比具有和任务无关、不需要先验知识等优点:能很好地工作于完全未知的环境中;并且构造出的Option,在同一环境下不同任务间可以直接共享。
其他文献
基于Internet的远程故障诊断越来越受到关注和重视.文章提出了基于移动Agent技术的远程故障诊断基本框架,讨论了移动策略、安全机制、诊断算法、虚拟仪器以及多Agent系统协商
研究基于IP无线网络中精细粒度可伸缩性(FGS)视频的传输。基于包交换的IP无线网络通常由两段链路组成:有线链路和无线链路。为了处理这种混合网络中不同类型数据包的丢失情况.对F