【摘 要】
:
在机器博弈领域中,相比完备信息问题,非完备信息下的机器博弈更为困难。而定约桥牌作为规则最为复杂的非完备信息棋牌类游戏,如何在叫牌过程中战胜人类顶级牌手,对于目前的机器智能来说仍然是难以攻克的课题。在传统的桥牌叫牌策略研究中,基于强化学习算法和基于专家经验的蒙特卡洛方法采样算法对于桥牌叫牌策略的优化都存在缺陷,难以得到具备职业牌手叫牌能力的叫牌模型。为了降低叫牌策略算法研究实现的难度,本文将叫牌策略
论文部分内容阅读
在机器博弈领域中,相比完备信息问题,非完备信息下的机器博弈更为困难。而定约桥牌作为规则最为复杂的非完备信息棋牌类游戏,如何在叫牌过程中战胜人类顶级牌手,对于目前的机器智能来说仍然是难以攻克的课题。在传统的桥牌叫牌策略研究中,基于强化学习算法和基于专家经验的蒙特卡洛方法采样算法对于桥牌叫牌策略的优化都存在缺陷,难以得到具备职业牌手叫牌能力的叫牌模型。为了降低叫牌策略算法研究实现的难度,本文将叫牌策略问题域分解,在模仿学习预训练模型的基础上,利用在线强化学习算法和离线强化学习算法对桥牌叫牌策略进行研究,期望叫牌模型通过自博弈探索合理叫牌来提高叫牌能力。本文利用新睿桥牌公司线上平台机器人在中国桥牌协会标准自然体系CCBA下的机器对打产生的大量叫牌序列为数据,以模仿学习预训练得到的具备桥牌叫牌体系理解能力的叫牌模型为研究基础,通过强化学习方法来优化模型的叫牌策略,训练得到更强的叫牌智能。为了能够使模型理解叫牌体系中叫牌的基本含义,本文设计了 3种神经网络模型,用于强化学习阶段训练数据生成以及强化学习算法训练。同时引入一种叫牌过滤机制来加快强化学习模型的收敛,实现叫牌过程中的叫牌规则约束,保证不会存在不合理的叫牌序列。最终实验结果显示,强化学习算法达到了设计目的,在线的强化学习算法训练的模型在继承了叫牌体系的理解能力基础上,相比模仿学习预训练的基本模型,在叫牌奖励、生成叫品合理性、模型对打能力上的表现更好,同时离线强化学习算法在训练的效率、模型的稳定性上也有了提升。最后,根据算法结果进行效果分析,总结目前研究的不足,并根据这些不足点确定未来对于桥牌叫牌策略的研究方向。
其他文献
近年来,我国深入贯彻创新驱动发展战略,高度重视R&D活动,各行业R&D投入不断提升,在这种情况下,企业的创新能力和效率直接关系着企业的生存和发展。在宏观经济下行压力的影响下,我国部分行业面临整体销售收入增速放缓,竞争加剧的严峻考验。为应对竞争,保住市场份额,企业纷纷加大R&D投入力度。然而,企业用于R&D活动的资源是有限的,合理的R&D结构对企业创新绩效的增
近年来,随着信息网络技术的不断发展,各种类型的多媒体网络和移动应用终端迅速推广普及,各种类型多媒体网络视频直播内容在网络社交与多媒体、医疗、调查以及休闲娱乐等各个领域随处可见。为了解决图像传输和存储问题,研究者们提出了多种图像编码算法。然而,现有的图像编码和图片后处理编码算法工作效率有待提高,仍具备较大的技术改进空间。如何有效控制压缩图像存储数据量,并且保证图像质量不明显降低是当前图像压缩领域亟待
随着世界格局不断变换,大国间关系不断调整,国与国之间综合国力竞争成为世界各国关注的重点。自第三次工业革命以来,科学技术水平快速提升,军用技术与民用技术之间的界限愈发模糊,世界各国均采用军民融合式发展加快经济建设、军事现代化建设速度,实现综合国力提升。电子信息制造业作为典型的军民结合产业,在制造业由机械化、电气化、数字化转向网络化、数据化以及智能化过程中发挥重要的功能。目前我国电子信息制造业虽然规模
鉴于资源禀赋不同,组织间普遍存在不对称的权力依赖关系,参与者地位不完全平等、相互依赖程度不一致在工程供应链合作中也是常态,且这种不对称依赖在工程总分包关系中体现得
背包问题不仅具有重要的理论研究价值,而且在实际问题中有着重要的经济效益。背包问题现已在工业和金融领域的系统处理和数据库分配,资源分配以及投资决策中具有重要的应用,
阅读是语言学习的主要形式与途径,因此英语阅读是高中英语教学的重点,而语篇教学是提高英语阅读教学的有效途径之一。为了解高中英语教师如何运用语篇分析理论进行英语阅读教学,寻找适合培养高中生通过微观语篇分析提高英语输出能力的教学活动,本研究选定了延边一中及延边二中共三位教师及一位州教研员作为研究对象,旨在研究以下问题:(1)基于微观语篇分析的高中英语读后教学活动有哪些?(2)这些读后教学活动都有哪些特点
官房矽卡岩型白钨矿床位于薄竹山矿集区西南侧,其大地构造位于华南准地台之右江地槽褶皱带,即滨西太平洋与特提斯构造域之结合部位。大型的成矿规模、显著地接触控矿构造、清晰地围岩蚀变等特征使其成为薄竹山矿集区西南侧最为典型的矽卡岩型白钨矿床,因此该矿床的地质-地球化学特征研究对推动该地区找矿工作意义重大。本文通过详尽的野外地质调查以及系统的岩矿取样测试工作,对矿床地质特征、成矿花岗岩与含矿矽卡岩的岩石地球
天然免疫是机体抵抗病原微生物入侵的第一道防线。TANK结合激酶1(TANK binding kinase 1,TBK1)是病毒感染时IRF3、IRF7磷酸化及Ⅰ型干扰素表达的关键激酶,在抗病毒天然免疫应答和获得性免疫应答中发挥重要作用。为研究TBK1在伪狂犬病毒复制过程中的作用,本试验利用慢病毒介导的CRISPR/Cas9技术构建了猪TBK1基因稳定敲除猪肾细胞系。首先针对TBK1基因外显子2区设
研究目的:在科技飞速发展的今天,移动智能手机凭借其便捷化、高效化、私人化等特点,日益成为当代大学生日常生活中不可缺少的通讯工具,而"互联网+健身"这个新颖的运动形式也
近年来,如何有效激发员工创新行为成为热点议题,其中创新动机是重要的研究视角。现有研究大都囿于组织行为学理论,基于激励视角,从工作动机(内部动机和外部动机)展开相关研究