基于深度强化学习的塔防游戏防御模型的设计与实现

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:killer258
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在现代国防的防空作战体系中,战场局势复杂且瞬息万变,使用AI进行动态辅助决策成为了一种迫切的需求。传统的依靠专家规则的AI模型过分依赖规则和专家的知识,而且不够灵活。基于深度强化学习的AI模型可以通过模拟或者真实的战场数据学习,使得决策更加灵活可靠。游戏环境一直都被认为是AI研究最理想的实验环境之一,在模拟仿真上的效果也很好。经过调研发现塔防游戏在游戏目标和操作上和防空作战有着一定的相似性。因此可以通过塔防游戏引擎模拟防空场景。本文通过塔防游戏引擎模拟现代防空场景,并通过游戏引擎使用深度强化学习训练防御模型。本文主要研究内容如下:首先是基于开源深度强化学习框架ELF提供的RTS游戏引擎实现了一个模拟仿真的塔防游戏引擎Mini-TD,提供实验环境。为了使游戏引擎符合实验要求以及达到模拟仿真防空作战场景的效果大量修改了底层逻辑。为了获得更好的训练效果我重新设计并实现了以对象为单位的游戏状态数据结构以及提取方法。开发出的引擎能够满足实验的要求,并且是可扩展的。其次是基于这个游戏引擎设计并实现了一个基于深度强化学习的塔防游戏防御模型,以游戏状态数据作为输入,输出控制命令。使用了LSTM神经网络处理时间序列问题,为了更加精确地选择单位、提高模型的性能以及减少模型收敛时间,在神经网络中引入了注意力机制和Unit Mask来选择攻击的主语和宾语,最后使用了A3C算法训练防御模型。模型在经过训练和测试后,在收敛速度、胜率和性能评估上达到了预期目标。同时通过消融性实验证明了注意力机制和Unit Mask对模型的性能有着明显的提升。说明本文提出的模型是可行的、有效的。有为现代防空提供动态辅助决策的能力和进一步研究的价值。
其他文献
在低温条件下储存保持活力的生物组织,早已被广泛地应用于畜牧、生物及医学方面。我们于1973年开始进行了利用液态氮储存异体皮的研究工作,并已大量应用于临床,成功地抢救了很多大面积深度烧伤病人。但我们发现低温储存皮肤的琥珀酸脱氢酶的活力(改良的Hershey氏法)只为储存前的45—55%左右,利用染料排斥法(dye exelusion)迨盼兰试验(改良的Prows法)也只为
期刊
现今,海洋资源的利用和交互受到很大的关注。以往海洋物联网技术主要是云计算架构,然而大数据时代,云计算逐渐面临网络时延等挑战。移动边缘计算的诞生解决了这些问题。但由于参与者之间缺乏信任以及用户对隐私的关注,需要提出更可靠的解决方案。目前的方案有的利用区块链解决数据安全问题,有的利用联邦学习解决隐私问题,但这些方法并未结合海洋的特殊环境,且未考虑节点的安全性。本文提出了一种基于联邦学习和区块链技术的边
在室内服务机器人技术领域中,自主导航是机器人功能的重要组成模块。在自主导航技术中,路径规划是机器人在应用场景内完成各项功能的技术基础。在全局和局部路径规划技术中,所应用的算法仍存在规划路径不平滑且稳定性不高的现象。本文针对以上问题,以轮式机器人为研究对象,对路径规划技术进行了研究。基于ROS(Robot Operating System)平台完成自主导航系统框架的搭建。为保证仿真和实验的顺利进行,
行人检测作为计算机视觉中一个备受关注的子方向,目的是检测图像或视频序列中是否存在行人,并给出精确的定位,其在智能监控、智能机器人、智能交通、车辆辅助驾驶系统、人体行为分析等领域都有广泛应用。本文以CSP行人检测算法为基准模型,从多方面进行改进模型,使模型拥有更低的漏检率,更快的检测速度和更小的体积。针对行人遮挡问题,本文将注意力机制融入网络,以提升模型在重度遮挡行人集合上的性能。最后将改进模型移植
调制识别是通信领域的一个关键性技术。传统的调制识别技术需要人工提取信号的特征后再进行分类,实现复杂且鲁棒性差。深度学习的快速发展为调制识别技术研究提供了新的思路,但其应用却面临两个重要挑战:一是如何获得更高的识别准确率,二是如何在小样本条件下实现对调制信号的有效识别。针对上述挑战,本文研究实现了一种基于三元组网络的调制识别方法,用于提升调制识别的准确率;研究实现了一种基于关系网络的调制识别方法,用
目前,慢性病是全球最主要的死亡原因,且趋于年轻化,如何降低慢性病的发病率、死亡率及其造成的疾病负担成为了全球所关注的焦点。由于慢性病本身具有潜伏期长、早期症状和体征不明显、常导致多种并发症等特征,加上有限的检测方法、治疗药物以及患者自身的病耻感,均为其诊疗带来巨大挑战。因此,探索疾病产生的机制及其代表性的标识物具有重要意义。脑电(Electroencephalogram,EEG)是一种电生理信号,
随着人工智能技术的快速发展浪潮,各种类型的机器人在人们的日常生产生活中得到了广泛的应用。其中,在能源化工行业中,由于危险气体泄漏引发的重大安全事故不断增加,防爆型巡检机器人也开始得到研究者的广泛关注。尤其是四轮独立驱动与转向的轮式机器人凭借其控制性好、灵活性高和机动性强的特点,在应对高危环境的巡检场景中成为研究应用的热点之一。防爆巡检机器人在执行巡检任务时,需要采用路径规划技术。基于已知环境信息,
行人重识别旨在判断行人在不同的摄像机视域下是否出现过,是图像检索的一个子问题。随着深度学习在计算机视觉领域的广泛应用,基于深度学习的行人重识别已经成为主流模型,并且在效果上远远超出基于传统机器学习的行人重识别方案。但在在实际的应用场景中,由于存在摄像机分辨率太低、姿态变化、光照变化频繁和遮挡严重等一系列问题,行人重识别任务仍然具有很大的挑战性。如何提取对光照变化、姿态变化和遮挡鲁棒的、有区分性的特
随着高通量技术的发展,产生了大量的生物组学数据,从生物组学数据中提取有意义的信息对于理解复杂的生物过程至关重要。生物组学数据的特点是“小N大P”,即特征数大,样本量小。传统的特征选择方法忽略了每个特征(生物分子)之间的复杂相互作用,因此从系统、宏观的网络层面研究特征(生物分子)之间的相互作用具有重要意义。本文对特征(生物分子)间的相互作用进行研究,提出了两种基于网络的生物标志物筛选方法。提出了基于
随着数字化时代的进步,基于云计算的机器学习预测也变得越来越广泛,然而传统的机器学习算法需要访问原始数据,这给用户数据带来了潜在的安全风险,尤其是一些隐私数据,比如医疗记录、财务数据等其他进入第三方渠道的信息。为了保护隐私数据不被泄露,实现安全的机器学习预测,可以在预测前对原始数据进行加密处理。同态加密技术可以对加密后的隐私数据做计算,这种隐私保护的方法使得安全预测成为可能。然而由于加密方案的巨大开