强化学习算法相关论文
以某三轴燃气轮机作为研究对象,针对燃气轮机各工况下转速失稳、不同海况下的动力响应需求、外部干扰等因素对燃气轮机工作状态的影......
近年来,序列化推荐系统由于其结合时序信息能够更好地获取用户的长期或短期的兴趣偏好的特点,超越了传统的基于协同过滤的推荐方法......
现如今,物联网用户需求的不断增长以及相关应用的发展,给移动设备提出了更高的计算需求、带宽需求、存储需求等。但是受到电池容量......
天文卫星的观测规划一直是天文卫星任务中核心的决策问题。该问题主要解决有限的卫星观测资源与人们对宇宙奥秘探测的无限需求间的......
由于我国经济的迅速发展,人们休闲娱乐的方式也越来越多,外出旅游也成为人们追求生活质量的重要方式。在旅游出行前,人们通常会在网上......
边缘计算是一种新兴的计算架构,能为低延时和高带宽需求的应用提供更好的性能的改进。边缘计算作为云计算下沉到用户侧的部分,能高效......
2015年5月,国务院正式印发《中国制造2025》,全面推进“工业4.0”。“工业4.0”的核心是智能制造。而智能制造的基石是精益生产,工业......
2016年以来,随着AlphaGo在人机围棋比赛中的大胜,深度强化学习算法成为了智能系统决策技术的核心。集感知和决策功能一体化的端到端......
算法作为当今科技高速发展时代下重要的工具,已经深刻影响了经济市场,推动着社会整体资源结构配置的优化。即时配送是互联网下先进算......
路径规划是移动机器人在不同场景下导航的关键技术之一,现在已经广泛应用在无人驾驶,物流机器人,家庭服务机器人等领域。传统路径规划......
随着商业航天的发展,卫星的数目呈现出规模化增加的趋势,然而航天测控系统中的测控资源数量相对有限,因而如何对现有测控资源进行有效......
多智能体系统的最优一致性控制问题是指:在每个智能体仅知道自身和其邻居智能体信息的情况下,对每个智能体设计控制器,使每个智能体的......
在实际场景中,用户的身份标识符通常是不可用的,例如用户在购买商品前以未登陆的状态来浏览电商平台,或者匿名地浏览网页从而保护个人......
由于认知用户的动态频谱接入机制和无线信道的广播特性,认知无线网络容易受到敌意干扰攻击的威胁。随着基于认知无线电技术的智能干......
在制造系统的生产过程中,生产设备状态的衰变会降低产品的质量水平,导致多成品率质量问题。本文针对此类具有多成品率质量问题的衰变......
计算力学是一个全新的理论框架,主要研究动力学系统中的几何状态空间如何支持符号推理计算。Santa Fe研究所的Crutchfield教授从80......
随着高层建筑的不断增多和智能建筑的快速发展,人们对建筑物内的客流运输设备电梯提出了越来越高的要求。为了提高电梯的运输能力和......
多智能体系统由多个相互作用的自主智能体(Agent)形成的集合,其研究的核心问题是寻求建立一种有效的协同机制,使功能简单,相互独立......
在不久的将来,仿生机器鱼会在极为复杂的水下环境中进行海洋生物观察、海底资源勘探、军事侦察和水下施工等艰巨工作。因此,针对群......
分批补料发酵过程的反应特点包括强非线性、时间滞后、参数时变性以及生物状态量难以实时测量等,对产物、底物和时间消耗进行直接......
空间搜索能力与局面估值的准确性是决定棋类游戏水平高低的最重要的两个方面。六子棋游戏规则简单,但状态空间复杂度高,平均分枝因......
目前,在MMOG(Massively Multiplayer Online Games)中应用的人工智能技术比较简单,强化学习算法可以实现更加复杂的游戏智能。由于......
从行为心理学发展而来,介于监督学习和非监督学习的强化学习算法,目前是机器学习研究领域的热点,越来越受到关注。现有的强化学习算法......
移动无线通信设备的暴增导致无线频谱资源日益稀缺,驱使蜂窝移动通信技术迅猛发展。LTE-U技术作为下一代蜂窝移动通信系统的关键技......
发展新能源汽车是我国的国家战略。为解决插电式混合动力汽车(Plug-in Hybrid Electric Vehicle,PHEV)对动力电池高比能量和高比功......
根据电梯运行周期公式和强化学习原理,给出了双轿厢电梯动态运行的强化学习算法配置.提出双轿厢电梯动态运行模式的4种类型,给出双......
基于Q-强化学习算法,建立了进化博弈中代理人的决策模型.考虑到强化学习算法不需要建立环境模型,可以用于不完全、不确定信息问题......
作为一类重要的机器学习方法,经典查找表形式的强化学习方法在大规模或者连续空间任务中普遍面临“维数灾难”问题,而基于逼近技术......
本课题针对橡胶拆垛机器人在拆分黏性橡胶垛这一特殊应用场合的性能要求,开展橡胶拆垛机器人轨迹优化及控制研究,建立了机器人插入......
制造业是作为高能耗产业,减少其能量消耗不仅是由于企业日益增长的生产运营成本,同时也是由于需要减少生产过程中温室气体排放。随着......
研究了一种基于智能体动作预测的多智能体强化学习算法.在多智能体系统中,学习智能体选择动作不可避免地要受到其他智能体执行动作......
将强化学习算法与混合智能技术相结合,应用于船舶运动控制,克服了通常混合智能算法的学习需要一定数量样本数据的缺陷,又能发挥各......
研究能源互联网发展背景下含有分布式电源(distributed generation,DG)接入的电力市场中的多主体博弈问题。首先,利用多代理(multi-ag......
针对水声无线传感器网络的节能问题,提出了一种基于时隙CSMA的强化学习算法;该算法利用强化学习协议自适应水下环境,根据数据传输......
将强化学习算法应用于静止同步补偿(STATCOM)电压控制器,克服了常规STATCOM电压控制器对系统数学模型的依赖性,同时根据来自系统的......
讨论模型未知的平均报酬强化学习算法。通过结合即时差分学习与R学习算法,将折扣问题中的一些方法推广到了平均准则问题中,提出了两类......
船舶运动控制与航行的安全性、可操纵性和经济性密切相关。本文基于模拟退火-强化学习算法提出了一种混合智能控制器,应用于船舶运......
BP神经网络在非线性控制系统中被广泛运用,但作为有导师监督的学习算法,要求批量提供输入输出对对神经网络训练,而在一些并不知道......
信息的爆炸式增长使数据挖掘分析过程更加困难,针对普通关联规则挖掘算法很难在短运行时间和低关联度的前提下完成大型数据库中变......
<正>铜谷贤治:用于心智模拟的神经环路强化学习算法的开发。铜谷贤治教授团队通过研究神经系统的强化学习功能环路,开发更为高效的......
本文以二元假设检验问题为背景,在有关观测源的先验统计知识未知的条件下,研究如何用神经网络方法从观测数据中学习后验概率函数问......
本文提出了一种在认知无线电网络中,基于演员-评论家(Actor-critic)的深度强化学习算法的动态功率分配方案。次用户在没有任何主用......
本文主要针对一类Markov跳变系统自适应优化控制算法进行了深入地研究。Markov跳变系统作为一种混杂动态系统,其内部各子系统之间......
供应链管理中的订单制定环节,经常存在一种需求被变异放大的现象即牛鞭效应,从而引起成本的增加。利用强化学习算法进行供应链管理中......