结合强化学习和Petri网的游戏AI建模、分析与优化

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户：wxyz0123

【摘要】

：

【作者】

：

胡伟昊

【机构】

：

西安电子科技大学

【出处】

：

西安电子科技大学

【发表日期】

：

2023年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在电子游戏的设计与开发中,游戏人工智能（Artificial Intelligence,AI）的设计是一个重要环节,是影响玩家体验的一个关键因素。游戏AI作为游戏可玩性、自由度的技术核心,可以提供给玩家更深层次的互动,让每个玩家体验到有趣、丰富且不同的游戏内容。有限状态机和行为树是目前游戏AI的主流配置方式,但有限状态机的决策较为单一,不易拓展,行为树则会占用更多的计算性能。强化学习作为三大机器学习方法之一,利用其“试探-得到回报-根据回报改变行为以求得更好的回报”的闭环行为策略,在电子游戏开发制作和研究中得到很好的应用,也是设计游戏AI的重要途径之一。Petri网是一种描述状态变化的建模方法,通过变迁构建各状态之间的联系,设定好变迁发射的规则以及反馈,使得网模型具备良好的灵活性。Petri网相较于其他建模语言具有一定的优势,其图形表示法简明直观,又具有很强的逻辑与数学理论支撑。本文研究的主要内容为探索形式化方法在游戏AI算法的拓展方式及其应用价值。结合强化学习和Petri网,本文主要工作成果如下:（1）提出了一种Petri网强化学习（Petri Net Reinforcement Learning,PNRL）算法,利用Petri网模型进行强化学习训练。与传统强化学习算法构建Q值表格不同的是,PNRL算法利用Petri网处理状态转移的高效性,将令牌存入Petri网的库所中,每一次变迁的发射伴随一次训练。学习过程的值更新借鉴了Q-Learning算法的值函数估计方式,但是执行的策略完全依靠Petri网自身变迁规则生成。（2）在算法测试过程中,PNRL算法的训练效果明显优于传统表格型Q-Learning算法。在面对状态数量较多的情况下,PNRL算法能保持稳定的计算消耗,用时更短,解决了Q-table过大影响训练效率的问题。同时在收敛性测试中,PNRL算法收敛速度更快。收敛后的Petri网模型能输出获得目标奖励的最快动作策略,避免局部最优。（3）将PNRL算法应用于游戏AI路径规划的导航网格和航路点,利用预先训练好的Petri网模型,快速输出目标点的寻路路径,减少实时计算占用的性能。优化后的PNRL算法,在处理较多位置状态时仍有不错的收敛效果。游戏路径规划不存在完美解法,本文为寻路算法提供一种新的思路和解决方案。

其他文献

基于相关状态估计的多目标跟踪算法研究

近几年来,以深度神经网络为代表的人工智能的快速发展,促进了该领域的计算机视觉技术在社会各行各业中的广泛应用。多目标跟踪作为计算机视觉研究领域的一个核心技术,在智能监控、国防军事、无人驾驶以及智能机器人等方向具有重要的研究意义。现有的多目标跟踪算法虽然已经取得较大进步但仍存在一些研究难点。首先,预测目标在下一时刻的位置是跟踪算法中的一个重要环节,但是多目标之间的复杂运动会导致预测错误,其次,目标外观

学位

面向微波无线传能的非线性结构因素对发射天线电性能的影响研究

高功率连续微波无线能量传输技术,正日益受到学术界与工业界的重视,其理论与关键技术已成为一个研究热点。发射天线在能量传输链路中,具有举足轻重的作用。为此,本文将非线性结构因素对空气微带阵列发射天线电性能影响作为主攻方向,基于阵列天线机电耦合理论,针对高功率微波发射天线,明确影响其电性能的非线性结构因素,建立其数学表征与综合模型,并面向逐日工程空气微带有源阵列发射天线进行了试验与分析。主要工作如下:1

学位

低频激励下混合式俘能器的设计与研究

振动能在自然环境中几乎无处不在,各种机械振动、桥梁振动和人体运动中都蕴含着丰富的振动能,通过收集环境中的振动能并将其转换为电能是替代传统电化学电池的一种有效途径。近年来,摩擦式俘能器以其重量轻、材料多样、成本低和输出电压高等独特优点,在收集环境振动能方面得到了迅速发展,但接触模式下的稀疏脉冲输出和材料磨损、非接触模式下的电荷耗散降低了摩擦式俘能器的输出稳定性且缩短了摩擦式俘能器的机械寿命。为了提高

学位

无人机的几种编队控制

四旋翼无人机由于结构简单,无需跑道,可定点悬停及原地起飞,被广泛应用在各种领域。而单架无人机通常无法高效完成复杂、大规模的工作任务,需要多架无人机编队来完成。传统的编队算法收敛速度较慢,且编队时容易发生碰撞。为解决以上问题,本文利用人工势场法研究了无人机的编队控制问题,主要的工作和研究成果如下:（1）针对传统编队算法收敛速度较慢问题,分别提出了基于人工引力势场的集中式和分布式领航者—跟随者编队算法

学位

图片及语言跨模态深度学习在仪器领域的研究与应用

随着深度学习的发展,人工智能的各个领域得到了很大提升,包括自然语言处理、多模态处理等。近年来多轮对话改写任务、多模态图文问答任务、跨模态对话任务取得了较大进步。然而跨模态视觉对话问答任务的研究还比较少见,此任务有助于人工智能的发展。深度学习跨模态视觉对话问答任务可分为两个子任务:多轮对话改写任务和多模态图文问答任务,多轮对话改写属于自然语言处理任务,通常只与语言有关,多模态图文问答涉及了模态的融合

学位

铜带缠绕型CCGA互连工艺的仿真优化

随着电子元器件小型化和集成化发展,陶瓷柱栅阵列封装器件应运而生。选用合适的互连工艺参数是制备高可靠性CCGA的关键。本文基于有限元分析理论,利用ANSYS Workbench仿真软件,采取瞬态热与瞬态结构耦合分析的研究方法,针对铜带缠绕型CCGA的互连工艺进行仿真研究,明确不同工艺参数对器件焊接残余应力和变形量的影响规律,以残余应力最小为准则,获取最佳工艺参数组合,用于指导实际工程生产。本文工作可

学位

SMT产线质量因素关联分析及参数优化方法研究

SMT产线是集成电路及电子信息制造行业的典型产线,PCB是完成许多电子产品功能的核心部件并且其性能极易受印刷及回流焊等工序的影响。目前SMT产线影响印刷及回流焊质量问题的因素众多且关系不明,多种质量问题往往同时出现,未能充分利用生产过程中的海量数据对SMT产线进行质量因素关联分析,导致缺陷率较高;且随着对产品质量要求日益提高,需要对产线参数进行优化,以提升直通率、合格率,提高SMT产线的生产质量。

学位

金属增材制造熔池数值模拟和缺陷检测研究

金属增材制造能够快速、批量、精准生产复杂金属结构。由于在打印过程中温度梯度高、热应力大,成型样件容易产生缺陷,并且打印过程中形成的熔池太小,打印过程不易监测,无法通过及时调整工艺参数减少成型样件中的缺陷率,严重影响样件的力学性能和使用寿命。为了降低成型样件中的缺陷率,提高样件的使用性能,本文对金属增材制造打印过程中缺陷的产生机理与金属增材制造已成型样件中缺陷的探测机制两方面展开研究。其中针对缺陷的

学位

时钟移相的直接线性相位比对方法的研究

随着科技的快速发展,时间频率测量技术在航空航天、卫星导航等领域的应用越来越广泛,各个科技领域对提供时间基准的频率标准源也提出更高的要求。频率稳定度作为频率源的重要指标之一,对其进行研究至关重要。传统的频率稳定度测量方法大多采用差频、混频等方式对信号进行处理,这些处理导致电路复杂,系统响应慢,并且不能实现瞬时频率稳定度的测量。为了弥补以上不足,本文针对同标称值信号,引入数字化测量技术,设计了一种时钟

学位

宽禁带半导体HEMT器件大信号电路模型提取及其统计分析

宽禁带半导体器件因其宽禁带带隙、高电子迁移率以及可工作在高频等特点在近年来备受关注,其应用场合涉及广泛,包括物联网、通信基站、日常电子设备、新能源汽车以及军用相控雷达阵等。在微波电路的仿真开发过程中,通常需要精确的器件电路模型来模拟预测所设计电路的频谱、增益、效率、线性度、饱和功率等工作特性,以便为后续的功放设计提供指导意见。特别是GaN基类的宽禁带半导体HEMT器件,由于其卓越的材料特性,经常工

学位

结合强化学习和Petri网的游戏AI建模、分析与优化

其他学术论文