基于深度强化学习的二打一扑克博弈算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:jinn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能技术不断发展,机器博弈领域成为研究重点。机器博弈分为完备信息博弈和非完备信息博弈,非完备信息博弈中存在隐藏信息,更接近实际场景,因此具有重要的研究价值。二打一扑克是一种典型的非完备信息博弈,各玩家的手牌信息对其他玩家是隐藏的,目前二打一扑克博弈算法存在胜率低、训练耗时长等问题。二打一扑克博弈不仅表现出信息的不完备性,还存在着阵营间合作竞争,动作空间大且随博弈变化,稀疏奖励等问题。深度学习和树搜索算法是解决二打一扑克博弈问题的主要方式,深度学习依赖数据集,智能体博弈能力取决于数据质量,但是高博弈水平的数据集获取困难。基于树搜索算法解决该问题时,局面的完备化是先决条件,对隐藏信息判断的准确度直接影响树搜索的策略优劣,虽然通过综合多种局面的搜索结果,可以提升策略的稳定度,但是搜索次数会成倍增加,消耗大量计算资源和时间。本文研究二打一扑克博弈问题,提出了一种基于深度强化学习的二打一扑克博弈算法(ICM-PER-DMC,IPDMC),算法中智能体只需要与博弈环境进行交互就可以提高自身博弈水平。针对各角色间的合作竞争关系,本文独立看待每个角色,设置三个智能体分别学习对应角色策略。针对动作空间大且变化的问题,本文改进智能体策略网络的输入输出,将网络输出映射全部动作空间改为网络对合法动作评价的方式,避免了交互中出现非法动作和训练时动作间相互影响。本文设计复合结构的策略网络,由长短期记忆网络处理有时间关联的出牌历史序列,再通过残差网络提取深层隐藏特征,使智能体在决策时能够综合当前局面和历史信息来完成。针对稀疏奖励问题,本文使用深度蒙特卡洛方法在完整轨迹学习,设计博弈结束时的反馈奖励函数,使策略网络去拟合样本累计回报。为了进一步提高算法训练效率,减少与环境的交互次数,本文从增加样本即时奖励和提高样本利用率两个角度优化,一是设计基于好奇心机制的内部奖励模块,将产生的内部奖励标准化后赋予样本,缓解样本奖励稀疏的问题;二是提出MC-error来衡量样本价值,在样本经验池中存储多个批次的样本,训练时从中基于优先级采样,使高价值样本被多次学习,提高样本的利用率。与RLCard规则智能体进行博弈实验,结果表明了本文算法可以从零基础起训练出具有较高博弈水平的二打一扑克智能体,其博弈胜率超过RLCard、CQL以及RHCP等算法智能体,也验证了算法中改进优化部分的有效性。与基于树搜索的NMCTS智能体进行博弈实验,结果表明了本文算法具有更优的训练效率和更短的单步决策时间。
其他文献
互联网社交平台已经成为人们进行沟通交流和信息传递的最主要渠道,每时每刻都会产生、传播海量的社交数据。如何更好地使用从这些社交文本数据中挖掘出有用的信息,从而辅助网络舆情监控、电子数据取证等重要的社会管理工作,逐渐成为自然语言处理领域的研究重点。命名实体识别是自然语言处理的重要研究方向,其识别效果将直接影响到下游信息抽取等任务。因此,对中文社交文本进行命名实体识别具有重要意义。在中文社交文本的命名实
学位
随着人脸识别行业的快速发展,人脸识别安全问题日益凸显,在人脸识别系统中收集及其处理得到的人脸图像泄露问题尤为突出。人脸图像泄露原因多种多样,涉及网络攻击、系统漏洞、内鬼窃取等多方面,人脸图像泄露难以避免。因此,对泄露的人脸图像进行溯源十分必要,不仅可以帮助公安机关取证,还可以帮助企业及时采取补救措施,降低人脸图像泄露对用户的影响。目前,数字水印技术是图像溯源的主流技术,相比于区块链等溯源技术,数字
学位
目前,科技期刊中存在大量学术论文领域术语缺失的问题,导致科研学者及相关从业人员无法准确定位领域前沿学术热点、溯源技术发展脉络,严重影响学术的传播与交流。领域术语的识别抽取可以看作是对文本的序列标注,目前,多数研究者均以类似命名实体识别的方法去研究,但由于领域标注样本的缺乏以及应用场景下数据的复杂性,传统模型的精准率、召回率均无法很好地满足期刊实际应用中对特定领域术语抽取的需求。因此,本文提出了一种
学位
单核苷酸变异(Single Nucleotide Variants,SNV)是一种最常见的基因突变类型,分为种系变异和体细胞变异两种形式,它们分别是遗传疾病和各种后天癌症产生与发展的根源。因此体细胞SNV检测为癌症的病理分析和个性化治疗提供重要信息,成为目前癌症基因组研究的重要内容之一。随着第二代测序技术提供巨量高分辨率的基因组数据,虽然产生许多检测SNV的方法,但是很少有方法能够适应于各种情况,
学位
数字孪生是当前物理系统数字化的重要手段,在航空航天、粮食生产、交通运输等国家重大行业得到广泛应用。WebGL是数字孪生最具前景的实现方式,其核心是利用渲染技术将物理世界映射至虚拟世界,实现跨平台访问及三维可视化。数字孪生模型复杂、场景庞大的特点导致WebGL渲染时数据获取耗时长、模型加载开销大。现有WebGL渲染优化的研究通过数据分离、压缩等消除冗余数据方法减少数据获取时间,并通过多细节层次(Le
学位
大型民航客机通常在发动机上配装有反推力装置,在飞机降落过程中,通过改变发动机外涵道气流方向来产生反向推力,进而辅助飞机减速,缩短飞机的滑跑距离,保障飞机安全着陆。传统液压驱动的反推力装置设计方法与研究理论较为成熟,而基于EMA驱动的反推力装置相关理论研究甚少,为此,本文基于EMA驱动的反推力装置为研究对象,侧重针对反推力装置电作动系统和运动机构开展建模与优化仿真研究。首先,分析了EMA驱动的反推力
学位
自然语言处理作为人工智能领域的研究重点,其根本目的是实现人机交互。随着计算机技术的不断发展,各产业智能化变革成为主旋律,其中工业智能化变革更是重中之重。由于消费者个性化要求不断变高,未来以自然语言处理为核心实现消费者个性化需求分析的生产模式必将迎来更广阔的市场。想要更好的分析出消费者的个性化需求,关键在于正确理解消费者的需求含义,这就要求计算机解决自然语言处理中所出现的歧义问题。本文通过分析国内外
学位
旋转装备(如航空发动机、高速涡轮泵、发电机、压缩机和汽轮机等)中的转子系统及其轴上组件是整机功能实现的重要保障,其运转的稳定性、可靠性和安全性直接影响着整机的效率与性能;且随着整机工况朝着极端化方向(高速、高压、低温/高温等)发展,其对转子系统的运行要求也更为苛刻。转子系统工况日趋复杂且常耦合有联轴器、多个支撑轴承、浮环密封和机械密封等功能部件(组件),由此造成系统产生振动的外部和内部激励因素增多
学位
三维重建技术在机械、建筑、医学和军事等领域发挥着重要作用,基于工程视图的三维重建技术是计算机图形学和计算机视觉的热门研究课题。本文从自底向上的算法展开研究和分析,对现存算法的优缺点进行归纳,确立了基于体素引导的三维形体识别方法和基于CSG树的组合子体构建方法,设计了基本体素、拉伸体素和旋转体素的识别与重建方法,实现了复杂三维形体的识别与重建。在前人完成对工程视图的几何信息数据的提取基础上,增加基本
学位
随着科学技术的不断发展,以精密加工为代表的先进加工技术越来越受到重视,被广泛应用于机器人、航空航天、数控加工和现代国防等领域。摩擦和扰动是影响机械伺服系统高精度运动控制的关键因素,非线性摩擦容易引起系统的稳态误差,从而降低被控系统的跟踪性能。因此,如何有效地抑制非线性摩擦和外部扰动对机械伺服系统运动精度的影响一直是一个比较热门的课题。本文针对存在非线性摩擦和参数不确定性的机械伺服系统精密轨迹跟踪问
学位