基于Markov对策和强化学习的多智能体协作研究

来源 :上海交通大学学报 | 被引量 : 0次 | 上传用户:gm_686
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
MAS的协作机制研究,当前比较适用的研究框架是非零和Markov对策及基于Q-算法的强化学习.但实际上在这种框架下的Agent强调独立学习而不考虑其他Agent的行为,故MAS缺乏协作机制.并且,Q-算法要求Agent与环境的交互时具有完备的观察信息,这种情况过于理想化.文中针对以上两个不足,提出了在联合行动和不完备信息下的协调学习.理论分析和仿真实验表明,协调学习算法具有收敛性.
其他文献
猪流行性乙型脑炎是由猪乙型脑炎病毒引起的。猪在感染后常造成严重的后果,并给养殖场带来较大的经济损失。本文将对猪流行性乙型脑炎进行系统的分析和归纳,可以为养殖场进行
丁香叶(Folium syringaeOblatae.)来源于木犀科丁香属植物紫丁香(Syringa oblataLindl.)、洋丁香(Syringa VulgarisL.)或朝鲜丁香(Syringa diatataNakai.)的干燥叶,为东北地区特色药
二十世纪三、四十年代的中国近代史研究同现实息息相关,受到各派政治力量的密切关注。蒋廷黻正是这一时期著名的外交家和历史学家本文简要分析他对中国近代外交史开拓性的贡献
总结41例全胸腔镜微创心脏手术的手术配合要点,术前做好患者的健康指导,注意体位摆放,术中做好腔镜器械的准确传递和保护.手术护士不仅具有正中开胸心脏手术配合的基础,还要
根据2004-2013年图们江口岸物流和腹地经济指标数据,运用灰色斜率关联度和灰色综合关联度分别分析了吉林省内和省外腹地经济指标与口岸物流的相关性,进一步采用多维灰色模型
铁路路基工程海外项目受项目所在国自然地理环境以及政治环境等多种因素影响,具有较强的地域性及较强的专业性。为了更好地规避海外项目所面临的各种风险,需要从技术管理上进行
战争年代交通运输是决定胜负的重要条件之一。1931年云南的公路通车里程只有120公里,至抗日战争前夕,云南省内公路通车里程也只有1177.7公里。可是抗战胜利时,云南省公路通车里程
针对旱作全膜双垄沟播玉米培肥模式单一及碳排放理论薄弱的问题,依托大田试验研究了不施氮肥对照(CK)和等氮(纯N 200 kg·hm^-2)条件下3个不同氮源(单施化肥,N;商品有机
据日本汽车工业协会的调查数据显示,据现在全世界存在的汽车台数大概是10亿台。2009年由于受金融危机的影响,年间生产台数减少了一些,但是从全球发展情况来看,特别是像中国、
高素质技能型动物防疫与检疫人才的培养是保障畜牧业健康发展、保障人类健康和公共安全、促进社会和谐发展的必然要求,也是适应当前兽医体制改革的必然要求。通过行业、企业调