基于动作空间划分的MAXQ自动分层方法 - 论文文献免费下载 - 搜论网

基于动作空间划分的MAXQ自动分层方法

来源 :计算机应用 | 被引量 : 3次 | 上传用户：usuke

【摘要】

：

针对分层强化学习需要人工给出层次结构这一问题,同时考虑到基于状态空间的自动分层方法在环境状态中没有明显子目标时分层效果并不理想的情况,提出一种基于动作空间的自动构造层次结构方法。首先,根据动作影响的状态分量将动作集合划分为多个不相交的子集;然后,分析Agent在不同状态下的可用动作,并识别瓶颈动作;最后,由瓶颈动作与执行次序确定动作子集之间的上下层关系,并构造层次结构。此外,对MAXQ方法中子任务

【作者】

：

【机构】

：

贵州大学计算机科学与技术学院

【出处】

：

计算机应用

【发表日期】

：

2017年05期

【关键词】

：

强化学习分层强化学习自动分层方法马尔可夫决策过程子任务 reinforcement learning hierarchical reinforcemen

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对分层强化学习需要人工给出层次结构这一问题,同时考虑到基于状态空间的自动分层方法在环境状态中没有明显子目标时分层效果并不理想的情况,提出一种基于动作空间的自动构造层次结构方法。首先,根据动作影响的状态分量将动作集合划分为多个不相交的子集;然后,分析Agent在不同状态下的可用动作,并识别瓶颈动作;最后,由瓶颈动作与执行次序确定动作子集之间的上下层关系,并构造层次结构。此外,对MAXQ方法中子任务的终止条件进行修改,使所提算法构造的层次结构可以通过MAXQ方法找到最优策略。实验结果表明,所提算法可以

其他文献

Pig Liver Esterase-catalyzed Hydrolysis of Three Diesters of meso-Bicyclic Dicarboxylic Acid and Thr

期刊

Oxabicyclo(221)-hept-5-ene-23-dicarboxylicACIDTetrahydrofuran-2345-tet

Photochemical Synthesis and Magnetic Property Investigation of a Mixed-valence 11-Tungstoph

ＩｎｔｒｏｄｕｃｔｉｏｎＲｅｄｕｃｅｄｈｅｔｅｒｏｐｏｌｙａｎｉｏｎｓ（ｈｅｔｅｒｏｐｏｌｙｂｌｕｅ）ａｒｅｏｆｃｏｎｔｉｎｕｉｎｇｉｎｔｅｒｅｓｔｉｎｓｏｍｅｉｍｐｏｒ－ｔａｎｔａｒｅａｓｏｆｃｈｅｍｉｓｔｒｙ，ｓｕｃｈａｓａｎａｌｙｔｉｃａｌａｎ...

期刊

PHOTOCHEMICALSYNTHESISMAGNETICPROPERTY11TUNGSTOPHOSPHATEPhotochemical synt

Formation of Pyrrolidin-1-ylcyclopentadienes via Cyclization of Alkyl 2-Dimethoxyacetyl-and

ＦｏｒｍａｔｉｏｎｏｆＰｙｒｒｏｌｉｄｉｎ┐１┐ｙｌｃｙｃｌｏｐｅｎｔａｄｉｅｎｅｓｖｉａＣｙｃｌｉｚａｔｉｏｎｏｆＡｌｋｙｌ２┐Ｄｉｍｅｔｈｏｘｙａｃｅｔｙｌ┐ａｎｄ２┐Ｅｔｈｏｘａｌｙｌ┐４┐ｏｘｏｐｅｎｔａｎｏａｔｅｓ＊ＺＨＵＹｉ－ｑｉａｎｇ，...

期刊

IntramoleularALDOLcondensationENAMINECyclopentadienamineIntramoleular aldol

A　Scope　Study　of　Condensation　of1,3-Diketones　with　Diethyl　Acetonedicarboxylate

ＡＳｃｏｐｅＳｔｕｄｙｏｆＣｏｎｄｅｎｓａｔｉｏｎｏｆ１，３－ＤｉｋｅｔｏｎｅｓｗｉｔｈＤｉｅｔｈｙｌＡｃｅｔｏｎｅｄｉｃａｒｂｏｘｙｌａｔｅＺＨＯＮＧＺｈｅｎ－ｑｉ，ＴＡＮＧＨｕｉ－ｔｏｎｇ，ＺＨＡＮＧＰａｎｇ（ＤｅｐａｒｔｍｅｎｔｏｆＣｈｅｍｉｓ...

期刊

Two New Bisabolane Sesquiterpenes from Ligularia Thyrsoidea

ＩｎＣｈｉｎａ，ｍｏｒｅｔｈａｎ２０Ｌｉｇｕｌａｒｉａｓｐｅｃｉｅｓ（Ｃｏｍｐｏｓｉｔａｅ）ｈａｖｅｂｅｅｎｕｓｅｄｆｏｒｆｏｌｋｍｅｄｉｃｉｎｅｓｗｉｔｈａｎｔｉｂｉｏｔｉｃ，ａｎｔｉｐｈｌｏｇｉｓｔｉｃａｎｄａｎｔｉｔｕｍｏｒａｃｔｉｖｉｔｉｅｓ...

期刊

LIGULARIAthyrsoideaBisabolaneSESQUITERPENE2DNMRLigularia thyrsoidea Bisab

西北电力设计院推行“三标”综合管理体系的有效做法

三标综合管理体系对目前从事工程总承包业务的设计院来讲很有意义。本文结合我院三标综合管理体系的建立，重点对体系的创新、有效方面进行阐述，对将要推行三标综合管理体系的单

期刊

三标管理创新有效the three standards combined management innovation effectiveness.

聊城电厂2×600MW引进机组热控设计特点

本文根据聊城电厂2×600 MW引进工程的热控设计及与外商谈判情况,参考外商提供的技术资料,主要对英国三井巴布科克(MBEL)公司的W型火焰炉的热控设计特点及英国ABB公司设

期刊

聊城电厂2×600MW引进机组燃煤发电机组热控设计特点boiler by down shot burnersremote I/Oconden

CFG桩复合地基承载特性探讨

采用CFG桩复合地基,能够大幅度提高地基承载力,减少建筑物沉降,为了进一步提高CFG桩在工程中的安全性、经济性、合理性,充分发挥CFG桩承载力的优势,本文根据CFG桩的理论研究

期刊

CFG桩复合地基CFG pilecomposite foundation

夏播作物话管理

三夏时节，时间紧，任务重。在夏粮收获后，夏播作物及时耕种管理就成为当前工作的重中之重。切实做好夏播作物的田间管理工作，对于保障粮食生产，促进农民增收意义重大。故此，各项措施

期刊

管理工作夏播作物粮食生产农民增收夏粮

风力发电机市场潜力无限

期刊

风力发电机风力发电场市场风力发电

其他学术论文