基于组合神经网络的Sarsa(λ)学习算法

来源 :计算机工程与设计 | 被引量 : 0次 | 上传用户:lhm136
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
标准的Sarsa(λ)算法对状态空间的要求是离散的且空间较小,而实际问题中很多系统的状态空间是连续的或尽管是离散的但空间较大,这就需要很大的内存来存储状态动作对。为此提出组合神经网络,首先用自组织映射(SOM)神经网络对状态空间进行自适应量化,然后在此基础上用BP网络拟合Q函数。该方法实现了Sarsa(λ)算法在连续和大规模状态空间的泛化。最后,实验结果表明了该方法的有效性。
其他文献
慢性肺源性心脏病(简称肺心病)急性发作是最常见的内科危重疾病,占我院内科住院危重病例的15%~20%。我院于2001年2月~2006年12月采用参麦注射液合丹参注射液治疗慢性肺源性心脏病急
目的观察六味地黄汤加味治疗乳腺癌并围绝经期综合征的疗效。方法将80例乳腺癌并围绝经期综合征患者随机分为治疗组与对照组,每组各40例。对照组应用谷维素治疗,治疗组在对照
目的 观察纳络酮治疗新生儿呼吸暂停的疗效。方法将2001年1月~2005年6月收治的呼吸暂停新生儿随机分为观察组62例,对照组54例。两组患儿入院后均给予治疗原发病、保持呼吸道通
目的探讨B超引导下经皮穿刺留置引流管治疗肝脓肿循证护理模式的应用效果。方法选择接受B超引导下经皮穿刺留置引流管治疗的79例肝脓肿患者,按照随机数字法分为实验组40例和
目的通过对不同学科骨质疏松症患者住院的一般情况、药物治疗及日常生活能力的分析,为临床骨质疏松症的诊疗和管理提供思路。方法回顾我院诊断为骨质疏松症患者共1667例,按收
一直以来,我国的大学英语受到传统教育模式的影响,都是采用教师讲授和翻译为主的教学方法,重视词汇、语法知识的讲解,忽视了理论知识在实际情景中的运用。使学生掌握大量的词