【摘 要】
:
机器博弈领域的研究分为完备信息博弈和非完备信息博弈,二者主要区别在于博弈参与者能否掌握所有局面信息。对手建模是指通过观察对手的一系列行为动作,分析背后的潜在意图,构建对手的个性化行为和策略弱点的表示模型,最终达到利用对手制定出具有针对性决策的目的,是解决非完备信息博弈问题的主要手段之一。二打一扑克中是典型的非完备信息博弈,同样能够使用对手建模解决该领域中的博弈问题。然而,目前在二打一扑克领域中的对
论文部分内容阅读
机器博弈领域的研究分为完备信息博弈和非完备信息博弈,二者主要区别在于博弈参与者能否掌握所有局面信息。对手建模是指通过观察对手的一系列行为动作,分析背后的潜在意图,构建对手的个性化行为和策略弱点的表示模型,最终达到利用对手制定出具有针对性决策的目的,是解决非完备信息博弈问题的主要手段之一。二打一扑克中是典型的非完备信息博弈,同样能够使用对手建模解决该领域中的博弈问题。然而,目前在二打一扑克领域中的对手建模方法存在研究成果少、实现方式单一导致应用场合受限的问题。策略偏向和神经网络是两种经典的对手建模方法。基于策略偏向的对手建模方法通过对手在二打一扑克博弈过程中的具体动作分析对手的博弈风格,直接重用预先设置好的对手模型制定策略,具有建模速度快的优点,但是对手模型的效果依赖领域知识和专家经验;基于神经网络的建模方法具有很强的抗干扰性,能在不需要二打一扑克领域知识的前提下提取出影响对手动作的因素,完成对手动作预测,但是存在训练数据量大、模型不可重用的问题,无法用于在线实时博弈。本文研究二打一扑克中的对手建模问题。首先,本文提出了一种二打一扑克手牌牌力计算方法。通过拟合统计结果得到所有牌型的牌力计算公式,将此牌型牌力计算公式作为蚁群算法的启发函数用于解决手牌的组合优化问题,得到一种手牌拆分方案,并将此拆分方案下的平均牌型牌力作为手牌牌力。然后,本文结合手牌牌力计算方法,提出了一种基于动作特征提取的二打一扑克对手建模方法,从对手特征以及对手动作两个角度进行对手建模。根据对手表现出的叫牌风格和跟牌风格,将对手的博弈风格分为松-激进、松-保守、紧-激进、紧-保守四种,并结合博弈水平完成对手特征建模。在对手动作建模方面,本文采用神经网络的方法对对手的主动出牌动作和跟牌动作进行预测,结合对手的博弈风格,训练得到了四种通用的群体模型,避免了对特定对手历史数据需求量大的问题,提高了模型的可重用性。最后,本文介绍了如何将建立的对手模型应用于现有二打一扑克博弈算法,提高算法的决策质量。具体包括:利用对手信息提高完备化局面的预测准确率,减少未知信息的不确定性带来的风险;将对手的动作偏向作为先验知识调整树搜索的选择公式,避免对低价值节点的搜索次数过多,保证算法搜索结果的质量;改变搜索次数以适应不同博弈水平的对手,提高算法的现实应用价值。为了验证提出对手建模方法的有效性,本文设计实验对比引入对手模型前后的博弈智能体在面对相同风格对手时的游戏表现。实验结果表明,本文提出的对手建模方法结合贝叶斯方法能够提高对手手牌的预测准确率;另一方面,基于对手模型的博弈智能体在面对四种风格的对手时,无论是地主胜率还是农民胜率都得到了提升,证明了本文提出的对手建模方法能够提升智能体的博弈水平。
其他文献
环境中广泛存在多变的振动机械能。有效收集这些振动机械能并将其转换为二级能源即电能给无线传感节点和低功耗电子设备等器件供电,一直是国际上绿色能源研究的关键技术问题。压电能量收集技术以其输出能量密度高、易小型化、易集成等优势成为解决这一问题的研究热点之一。为了高效地收集环境中多变的振动能量,本文首先提出了一种基于U型梁摆结构的多方向压电振动能量收集装置,该装置在低频范围内表现出多峰值、多方向的振动能量
机械设备是现代工业中至关重要的一环,其性能好坏直接关系到生产活动能否安全稳定的进行。由于机械设备长期运行在重载、高温等复杂多变的工况条件下,关键零部件容易出现故障损伤,及时对其进行检测维护具有非常重要的意义。本文将迁移学习与深度学习相结合并应用于机械故障诊断中,针对两种工程应用场景提出了相应的故障诊断方法,解决了变工况下故障特征分布差异而导致诊断模型精度下降的问题。本文的主要工作和贡献如下:(1)
随着无人机技术的发展,无人机的应用范围越来越广泛。使用场景也在向室内发展,无人机室内飞行的关键在于室内的定位以及导航避障。在室内环境中,无人机的位置信息来源十分有限,极大地限制了无人机的使用。同步定位与建图技术(Simultaneous Localization And Mapping,SLAM)可以只使用无人机上搭载的传感器获得位置信息。本文根据无人机的室内飞行所需要的关键技术,对无人机的室内定
近年来,机器人系统被越来越多地应用到如工业制造、航天航空以及军工制造等领域中。为了使机器人能够出色地完成相关任务,实现其高速高精度的轨迹跟踪鲁棒控制是至关重要的,而这也正是机器人控制领域的研究者们一直以来的研究重点。在实际作业环境中,由于非线性机器人系统参数难以精确测量,并且还存在外部随机扰动等不确定因素的影响,使得研究者们难以对其进行精确建模。这些不确定因素都影响着机器人系统的轨迹跟踪控制品质,
随着科学技术的迅速发展,射频电路已经广泛分布于民生、军工、医疗、航天等领域。射频电路的集成度越来越高,射频电路的复杂性随之增加,人们对射频电路可靠性的要求和依赖性也随之增加。对于应用于重要领域的关键射频设备,对射频电路的健康监测指标要求更严格、更全面,对射频电路健康监测精度也提出了更高的要求。而目前射频电路故障诊断及预测的研究尚不充分,针对射频电路的高频特性导致故障参数难以提取问题,以及传统模拟电
时间离散事件系统由离散事件驱动,具有时间概念。如果系统的演化完全受制于同步和延迟现象,则可借助双子代数将其建模为极大-加线性系统。Petri网是一种适合于描述异步并发行为的形式化系统模型,具有严格的数学表达形式与直观的图形表现形式。一种时间Petri网的子类TEG(Timed Event Graph)受制于同步现象,且具有表示延迟行为的参数—驻留时间,因此可使用双子代数工具将TEG建模为极大-加线
近年来,各种军用与民用设备均向信息化发展,同时电磁环境的恶化与强电磁脉冲武器的应用给设备带来更多威胁,信息化在提高效率的同时也对设备的电磁防护提出了更高的要求。瞬态抑制器件可以对电路中的传导耦合起到良好的抑制作用,典型的几种瞬态抑制器件国内外的研究较多,但面对愈加严苛复杂的防护需求,传统瞬态抑制器件防护能力捉襟见肘。电涌抑制晶闸管(TSS)在过往通常应用在雷电防护领域,在强电磁脉冲下的防护与应用仍
随着制造业的不断发展,出现了越来越多需要人与机器人协同工作的任务场景,这对于机器人的智能化提出了更高要求,协作机器人应运而生。协作机器人相较于传统的工业机器人有两大优势,即能够在关节层面实现外力感知以及主动柔顺控制。本文主要对协作机器人一体化关节的外力感知以及柔顺控制两个方面进行了研究。主要研究内容如下:以节约成本为前提,在不使用关节嵌入式力矩传感器的情况下,基于协作机器人一体化关节的谐波传动原理
<正>元和十年自朗州至京,戏赠看花诸君子刘禹锡紫陌红尘拂面来,无人不道看花回。玄都观里桃千树,尽是刘郎去后栽。再游玄都观刘禹锡百亩庭中半是苔,桃花净尽菜花开。种桃道士归何处?前度刘郎今又来。(选自《唐诗鉴赏辞典》,萧涤非等撰,上海辞书出版社1983年版)鉴赏空间在《酬乐天扬州初逢席上见赠》中,刘禹锡曲折地表达了长期被贬谪的深
<正>我的教龄整整二十年了。刚刚走上工作岗位的时候,备课的时候喜欢看教参,喜欢看相关的解读的书,书上密密麻麻地写着理解分析,每次备完课都特有成就感。现在回想起来,那都是别人的观点,不是我自己的。随着年龄的增长,人生阅历的增加,对一些文章的理解也与以前大不相同,写在书本上的内容也发生了变化。不再是教参以及相关的解读内容,而是深度思考后的个性理解和认识。