Q-学习算法相关论文
本文在分析强化学习工作机制的基础上,提出了一种基于强化学习算法的PID参数自整定方法。通过与其他算法的对比以及控制系统的鲁棒......
随着Internet技术的发展和计算机的广泛应用,基于Internet的电子商务蓬勃兴起,这给传统商务协作带来了机遇和挑战。多Agent系统在......
本文研究的重点是在多Agent技术环境下探讨强化学习技术的原理以及如何改进其学习效率并提高其算法的合理性,在此研究基础上构建基......
强化学习是一种无监督学习方法,使智能体能够在环境模型未知的情况下利用环境奖赏发现最优的行为序列,因此被广泛用于智能体系统中......
城市交通问题已经成为困扰城市发展重要因素之一,而原有交通模式下的控制系统已经形成城市发展中木桶理论的“短板效应”。提出基于......
以BIM模型的数据结构为基础,融合建筑设计静态数据、室内环境数据和设备运行数据,采用自适应动态规划方法,建立基于BIM的建筑-环境......
针对网络入侵的不确定性导致异常检测系统误报率较高的不足,提出一种基于Q-学习算法的异常检测模型(QLADM)。该模型把Q-学习、行为意......
提出了一种改进的遗传算法,该算法在求解划分问题的同时也解决了多种硬件方式探索问题。算法依据硬件实现方式的硬件延时-面积矛盾......
为了提高智能体系统中的典型的强化学习Q-学习的学习速度和收敛速度,使学习过程充分利用环境信息,本文提出了一种基于经验知识的Q-学......
生产调度位于计算机集成制造系统体系结构中的中间层,是控制与管理一体化的接合部。向上要给企业经营战略决策层提供决策依据,向下......
传统的强化学习存在收敛速度慢等问题,结合先验知识预置某些偏向可以加快学习速度.但是当先验知识不正确时又可能导致学习过程不收敛......
序列决策问题作为一种广泛存在的决策问题,在各个领域都具有重要的应用。强化学习技术为解决序列决策问题提供了一种强有力工具,本......
传统U-Tree算法对于部分观测马尔可夫决策过程POMDP问题的解决已取得较为显著的成效,但是由于边缘节点生长过于随意,所以仍存在树......
强化学习不需要具有先验知识,通过试错与环境交互获得策略的改进,具有自学习和在线学习能力,是构造智能体的核心技术之一。文中首......
为研究诱导模型的诱导效果,用元胞自动机模型模拟车辆在路网中的行为,仿真了不同诱导信息在不同交通量、不同受诱导率情况下对交通......
学习控制算法来源于人类的学习过程,为了解决被控对象的非线性和系统建模不完善所造成的未知量不确定性问题,可用该算法降低这种缺......
环境污染与气候恶化正成为社会面临的严重问题,电动汽车不直接使用化石能源可以有效解决高污染、高排放问题,因此受到学术界和产业......
城市快速路是城市道路网的主骨架,承担着城市大容量的交通。但是随着快速路交通拥挤日益突出,严重降低了城市交通效率,因此迫切需......
MAS的协作机制研究,当前比较适用的研究框架是非零和Markov对策及基于Q-算法的强化学习.但实际上在这种框架下的Agent强调独立学习......
现有的有状态网络协议模糊测试技术在测试时,辅助类型报文重复交互,测试效率低,且为确保测试用例有效性,仅向协议实体输入报文类型......
采用Q-学习算法实现了交通控制与诱导协同模式的在线选择。首先,采用Q-学习算法训练多智能体,根据多智能体内部的推理得到不同交通......