【摘 要】
:
强化学习的经验回放方法在减少状态序列间相关性的同时提高了数据的利用效率,但目前只能用于确定性的状态环境.为在随机状态环境下充分利用经验回放,且能够保持原有的状态分
【机 构】
:
河北省机器学习与计算智能重点实验室
【基金项目】
:
河北省自然科学面上基金资助项目(F2017201020,F2018201115),河北省教育厅科学技术研究重点资助项目(ZD2019021),河北省教育厅青年基金资助项目(QN2017019)
论文部分内容阅读
强化学习的经验回放方法在减少状态序列间相关性的同时提高了数据的利用效率,但目前只能用于确定性的状态环境.为在随机状态环境下充分利用经验回放,且能够保持原有的状态分布,提出一种基于树的经验存储结构来存储探索过程中的状态转移概率,并根据该存储方式,提出基于期望经验回放的Q学习算法.该方法在保证算法复杂度较低的情况下,可实现对环境状态转移的无偏估计,减少Q学习算法的过估计问题.在经典的机器人随机行走问题中进行实验,结果证明,相比于基于均匀回放方法和优先回放的经验回放方法,基于期望经验回放Q学习算法的收敛速度约提
其他文献
目前,外汇领域已经初步形成了一套完整的"大额和可疑外汇资金交易报告"等有关反洗钱工作机制,包括银行报告和外汇局核查乃至公安部门查处,但信息来源渠道却较为单一,主要来源
在我们中职学校新疆班,英语就像专业课程一样,也是一门重要的课程之一。中职学生英语素质是中职学生综合素质的重要组成部分。中职学生学好英语,对提高中职学生的专业素质和专业
随着社会经济的发展,人们生活水平越来越高,家长们越来越重视学生的德育教育工作,而小学是学生培养良好道德品质的重要阶段,在小学阶段加强学生的德育教育,让孩子们初步形成
我国社会主义制度的酿成有历史的选择、有理论的逻辑以及有实践验证。探究我国社会主义制度的各方面优势,其根本是以人民为中心的人民立场。以人民为中心的制度优势在抗击新
摘 要:在文艺新生态语境下,人工智能绘画与互联网一道为大众提供了新的接触和消费绘画艺术的方式。为了深入探讨人工智能绘画的存在价值,本文在文艺新生态语境下对人工智能绘画的生存境遇、创作场域和社会价值进行了分析,既从创作主体和受众客体的角度厘清人工智能绘画的历史性和经济性,又从人工智能主体性弱化的角度探讨人工智能绘画的价值消减。 关键词:文艺新生态;人工智能绘画;传统手工绘画;创作场域;社会价值
端元提取是高光谱遥感研究的重点内容之一。在高光谱影像信息识别、环境监测、资源探测和丰度反演等领域有着重要运用。为了实现有效的端元提取,如何准确估计(尤其是未知区域)