Q-学习相关论文
随着“中国制造2025”时间点的迫近,机器人的应用日益广泛,生产生活中随处可见机器人的身影。在生产工作中,机械臂周边的环境不仅......
复杂工业过程具有模型维数高、多时间尺度耦合、动态不确定性等特点,其运行优化控制(Operational optimal control, OOC)一直是控制......
为实现高超声速飞行器姿态自抗扰控制的参数整定,提出一种模糊Q-learning算法。首先,考虑采用强化学习中的Q-learning算法来实现姿态......
无线网络技术凭借着诸多优势,比如低成本、移动方便等,逐渐应用到工业系统中。同时也带来一些问题,例如,容易在数据传输的过程中发......
在将强化学习应用于实际问题时,遇到的困难之一是如何根据连续的传感器输入信号来构造合适的状态表达.提出了一种自动构造状态空间......
认知无线电是一种能自动感知周围环境并检测到空闲频谱的新技术,快速和准确的检测到频谱空穴技术是目前研究的一个热点。由于实际环......
温室控制是设施农业的关键技术,如何以最经济有效的方式控制温室环境达到满意效果,是温室技术的一个关键而又薄弱的技术环节.温室......
局部路径规划是水下机器人(AUV)导航任务中的难点。自适应性是AUV所必须具有的关键能力。强化学习被认为是获耳义未知环境下自主机......
完备信息博弈已经有很多比较成功的解决方案。博弈双方根据当前棋局创建一个部分的博弈树,利用估值函数对叶结点进行估值,通过估值......
强化学习是机器学习领域中的重要分支。强化学习通过与环境交互获得奖赏信号,使期望奖赏最大化,以获得最优策略。根据行为策略与目......
得益于微机电系统的飞速发展与日益成熟,智能传感器节点具有数据感知、无线通信、协同合作等功能,故可浸入式地获取网络覆盖范围内......
在对农田水利设施进行管理维护时,由于其公共品属性和农民个人理性,会采取搭便车策略,导致参与积极性不高.首先建立了农民参与农田......
提出了一种多Agent并行Q-学习算法. 学习系统中存在多个Agent, 它们的学习环境、学习任务及自身功能均相同. 在每个学习周期内, 各......
采用面向对象思想构造了既有继承性、封装性,又具有智能性、自主性的智能主体Agent。结合MAS(Multi-AgentSystem)的群体智能性和博......
一个激励学习Agent通过学习一个从状态到动作映射的最优策略来解决策问题。激励学习方法是Agent利用试验与环境交互以改进自身的行......
基本Q-学习算法总是利用当前最优策略进行动作的选取,这样容易陷入局部最优。文章在模拟退火强化学习基础上提出了基于探索区域扩......
探索与扩张是Q-学习算法中动作选取的索可以跳出局部最优并加速学习,而过多的探索将影响算法的性能.通过把Q-学习中寻求最优策略表......
期刊

