【摘 要】
:
强化学习通过与环境的交互学得任务的决策策略,具有自学习与在线学习的特点。但"交互试错"的机制也往往导致了算法的运行效率较低、收敛速度较慢。知识包含了人类经验和对事
【机 构】
:
解放军理工大学指挥信息系统学院,浙江大学机械工程学院
【基金项目】
:
中电集团重点预研基金(6141B08010101);中国博士后科学基金(2015T81081,2016M602974);江苏省自然科学青年基金(BK20140075)~~
论文部分内容阅读
强化学习通过与环境的交互学得任务的决策策略,具有自学习与在线学习的特点。但"交互试错"的机制也往往导致了算法的运行效率较低、收敛速度较慢。知识包含了人类经验和对事物的认知规律,利用知识引导智能体(agent)的学习,是解决上述问题的一种有效方法。该文尝试将定性规则知识引入到强化学习中,通过云推理模型对定性规则进行表示,将其作为探索策略引导智能体的动作选择,以减少智能体在状态-动作空间探索的盲目性。该文选用OpenAI Gym作为测试环境,通过在自定义的"CartPole-v2"中的实验,验证了提出的基于云推理模型探索策略的有效性,可以提高强化学习的学习效率,加快收敛速度。
其他文献
目前我国对现代艺术歌曲研究较多,各位专家各有己见。《声声慢》是宋代李清照的代表作,这首词多用叠字和双声子,节奏舒缓而急促、凄厉、哀怨。表达了作者郁闷的情绪和动荡不
本文介绍了一种生产大口径无缝钢瓶的双轮旋压机,该设备最大加工外径可达Φ950mm,填补了国内外在此项技术和工艺领域的空白。该旋压机生产的Φ914无缝高压气瓶已成功运用到CN
变风量(variable air volume,VAV)空调系统因其具有巨大的节能能力,逐渐成为国内外空调系统的主流。但是,VAV空调系统控制环路多,系统整体性控制要求较高,特别是各控制环路的耦合严
本文研究了不同卡拉胶的添加量对酪蛋白-卡拉胶体系粒径以及流变学性质的影响,对维持体系的流变学特性与凝胶特性的分子间作用力进行了探究,揭示了酪蛋白与卡拉胶混合凝胶机
<正>甜玉米的特性和特殊用途决定了它的的栽培特点。不同于普通玉米的栽培技术。依生产目的,选择对路的甜玉米品种类型。如以幼嫩果作果蔬菜上市为主,应选超甜玉米品种。以做
目的本课题主要是深入研究Sp1、IRF1和IRF2调控载脂蛋白L1基因表达的机制。方法提取细胞RNA并逆转录成cDNA,利用PCR的方法,扩增IRF2全长基因片段,将其克隆到pflag-cmv-2表达载体
草书发展到唐代中期,似乎已经达到了顶峰,唐晚期的草书作品更是甚少,惟有释高闲能够独立于世。到了“尚意”美学的宋代,应该说这个时代的美学特点就是为草书而生,然而我们纵
2010年在北京签订的《北京公约》和《北京议定书》两个国际航空安保公约,分别对1971年《蒙特利尔公约》及其补充议定书和1970年《海牙公约》进行了全面修订,新增了威胁犯罪行
<正>内蒙古汉森酒业集团有限公司(以下简称汉森酒业)成立于2001年,注册资金2.3亿元,现拥有总资产7.8亿元,是国家级农业产业化龙头企业和中国西部最大的葡萄酒企业之一。汉森
公共性旅游资源的公益性特征决定了其既要注重资源配置效率,又要兼顾社会福利。目前公共性旅游资源在市场调节机制失灵的情况下,发挥资源保护职能的政府规制显得至关重要。本