【摘 要】
:
非完备信息博弈类问题在实际生活中广泛存在,例如商业谈判、广告定价、军事策略、金融交易等都属于非完备信息博弈领域,因此对相关领域的研究有着较大意义。非完备信息博弈具有信息不对称的特点,问题的复杂度比完全信息博弈问题更高,难以通过传统的博弈方法来解决此类问题,如何通过有限的已知信息求得最优解是本论文研究的重点。本文以四人麻将为例,提出了将博弈树与机器学习结合的方法来解决非完备信息博弈问题。本文的主要工
论文部分内容阅读
非完备信息博弈类问题在实际生活中广泛存在,例如商业谈判、广告定价、军事策略、金融交易等都属于非完备信息博弈领域,因此对相关领域的研究有着较大意义。非完备信息博弈具有信息不对称的特点,问题的复杂度比完全信息博弈问题更高,难以通过传统的博弈方法来解决此类问题,如何通过有限的已知信息求得最优解是本论文研究的重点。本文以四人麻将为例,提出了将博弈树与机器学习结合的方法来解决非完备信息博弈问题。本文的主要工作和创新点如下:1)结合麻将的博弈规则,将博弈过程抽象成博弈树。结合专家经验,优化了搜索树的展开方式,将搜索树的模拟展开过程转变为按照获胜条件反推出获胜路径,将搜索的复杂度由指数级降低为多项式级。在估值函数的设计上,综合了得分与获胜概率,采用获胜期望来表示胡牌路径的优劣,使估值更为准确,兼顾了高分与高胜率的胡牌倾向。2)采用蒙特卡洛模拟的方式来建立对手模型,结合数据分布特征与当前局面中的公共已知信息推测对手隐藏信息,按照轮次与当前的局面状态进行有概率的随机模拟,采用对手已知信息来进行可信度验证,并结合历史数据统计调整模拟结果,使其更加贴近实际情况。利用蒙特卡洛模拟得到的对手模型,提高在博弈树扩展过程中的获胜期望评估准确度。3)深度学习是高度依赖样本质量的算法,而在非完备信息博弈中又存在高质量数据难以获取、数据样本的质量也难以评价的问题。因此本文利用设计好的博弈树方法,输入完美信息进行决策,通过博弈树的自我对局产生优质的样本数据,抽取特征后采用深度残差网络训练。这样的方式相比于一般的博弈树方法,更好的利用了隐藏信息;相较于直接学习人类样本的深度学习方法,只需要更少的特征就能达到更好的预测效果。4)设计并搭建了测试平台。通过测试平台的简单配置,可以实现机器人之间相互的对局,将测试产生的数据保存到数据库当中;完成了回放系统的搭建,并通过web端将对局数据可视化。通过测试平台能够进行数据统计、决策分析、和博弈行为分析。
其他文献
目的:探讨不同人格对全膝关节置换术(total knee arthroplasty,TKA)后患者早期康复疗效的影响,希望能对不同性格的患者在选择治疗方案时给出合适的指导意见。方法:选取2020年5月-2021年2月就诊于南昌大学第一附属医院确诊为膝关节骨性关节炎且行单侧全膝关节置换术的58例患者,依据艾森克人格评分量表(Eysenck Personality Questionnaire,EPQ)
无人作战系统因其独特的技术特点,具有巨大的军事应用前景,开展无人化打击载荷技术研究具有重要军事意义和工程应用价值。本文开展了小型无人化作战系统打击载荷模块设计及连发散布控制研究。论文依据设计指标要求,基于连发散布控制研究的目的,进行了小型打击载荷模块试验样机的总体结构方案设计,并建立了三维模型。提出运用高速3D-DIC技术,对基于固定状态的火力打击载荷的弹头膛内运动期间及连发射击时的枪口响应开展三
目的:在前期研究中我们发现改良空回肠旁路术(Side-to-side Jejunoileal bypass plus proximal loop ligation,SSJIBL)有明显减重、降血糖效果,但其具体减重及降血糖机制尚不十分明确。基于前期研究我们推测:胆汁酸在SSJIBL术后可能通过调节肝肠糖异生来改善葡萄糖代谢。为解决以上问题并证实上述推测,本研究以GK大鼠为研究对象,以SSJIBL和
环境DNA(environmental DNA,eDNA)调查正越来越多地被用于生物多样性的监测,主要因为它们敏感并且能提供高分辨率群落组成数据。环境DNA技术自问世以来,主要应用于水生生物的生物监测、入侵生物学(早期物种检测、被动监视)和生物多样性等。环境DNA对于生物多样性的研究较广泛,在环境DNA宏条形码技术的标准化流程之上,本研究探索了适用于环境中蚌类的环境DNA通用引物。将环境DNA宏条
"创新驱动发展战略"已成为建设现代化强国的必由之路。本文基于2008—2018年中国装备制造业和投入产出表相关数据,就制造业投入服务化对装备制造业产业创新产出的影响进行了实证研究,并进一步研究了制造业投入服务化对装备制造业细分产业创新产出的影响。研究发现:在其他条件相同的情况下,制造业投入服务化会提高产业创新产出;制造业投入服务化对所有装备制造业细分产业创新产出存在着正相关性,且大多在非常显著。
目的:1、调查我院失代偿期肝硬化患者中急性肾损伤(Acute Kidney Injury,AKI)的患病状况;2、比较失代偿期肝硬化合并AKI患者不同分期间的临床指标;3、探索AKI自然病程中的不同转归途径的影响因素及其与患者预后的关系;方法:通过南昌大学第一附属医院病案管理系统,入院科室设置为消化内科、感染科,住院时间为2015年1月1日至2016年12月31日,收集符合标准的肝硬化失代偿期患者
研究目的:构建EBP50基因的重组慢病毒表达载体,进行病毒包装后体外感染巨噬细胞,探讨EBP50对巨噬细胞抗结核分枝杆菌感染能力的影响,并分别从巨噬细胞吞噬体与溶酶体融合率、诱导性一氧化氮合酶表达水平和NO产生水平、巨噬细胞的自噬和凋亡水平等方面探讨EBP50影响巨噬细胞抗Mtb感染能力的相关机制。研究方法:1.重组慢病毒表达质粒的构建:采用PCR方法从质粒p LEM中扩增出EBP50基因,然后克
拓扑绝缘体是一类具有奇特物理性能的新型量子材料,其表面导电,体态绝缘,在拓扑量子计算和自旋电子器件领域具有重大的应用潜力。在本论文中,作者通过分子束外延技术,在Sr Ti O3(111)单晶衬底上生长了一系列c轴择优取向的Bi2-xCrxTe3(0≤x≤0.3)薄膜,研究了其结构、形貌及电输运性能,取得了如下主要结果:(1)在不同衬底温度下生长了一系列Bi2Te3薄膜样品,通过对其结构及形貌进行表
热电材料是一种能够在热能与电能之间进行相互转换的新型清洁能源材料,在温差发热以及固态制冷两个方面有着广泛的运用前景与市场潜力。热电材料的性能优劣主要由无量纲热电优值ZT表征,与塞贝克系数的平方,电导率成正比例关系,与热导率成反比例关系,三种参数之间存在着强烈的耦合关系,如何对其进行解耦是进一步提升材料热电性能的关键因素。P型半导体材料CrSi2具有较高的塞贝克系数与电导率,因而有相对较好的功率因子
目的:1.总结单中心肾移植术后高水平BK病毒尿症的发生率,分析其危险因素以及对预防BK病毒相关性肾病(BK Polyomavirus associated Nephropathy,BKVAN)的意义;2.探讨抢先治疗肾移植术后高水平BK病毒尿症控制BK病毒感染进展的安全性及疗效。方法:1.回顾性分析2015年01月01日至2018年12月31日江西省人民医院器官移植科实施手术的262例同种异体肾移