论文部分内容阅读
随着无人潜航器技术的发展,无人潜航器将是未来高技术海战场条件下不可忽视的对抗力量,但对抗成败的关键也不仅在于装备本身,更在于如何综合筹划、有效运用和精准布控兵力,做出一系列正确的指挥决策,这也对其智能化以及自主能力有了更高的要求,攻击过程中的智能决策尤为重要。深度强化学习由于其较好的模型适应能力以及可学习能力,通过在对抗环境中学习并找到问题的最优解,因而可以应用于无人潜航器的鱼雷攻击决策过程。本文针对无人潜航器鱼雷攻击问题的考虑稀疏奖励问题和序贯决策问题的改进强化学习决策研究,针对研究问题的基本属性,进行了数学建模和仿真程序设计,在机动目标打靶和红蓝对抗任务中对算法进行了仿真验证。主要包含一下几个方面:(1)本文首先对对抗问题进行分析,明确了对抗环境中无人潜航器的基本属性,对无人潜航器鱼雷攻击过程进行了数学建模,设计了包含声呐探测、机动、鱼雷导引的仿真环境;然后对场景要素进行详细设计,将数学模型具体实现为仿真系统程序。最后,根据对抗环境模型确定了决策系统的输入与输出,明确了决策系统与对抗仿真环境的交互过程。(2)针对无人潜航器鱼雷攻击决策中存在的不利于强化学习求解的稀疏奖励问题,通过对不成功历史经验的再利用方法增加了额外的奖励反馈加以解决,并且在无人潜航器机动目标鱼雷打靶任务中,验证了算法的有效性,并对比分析了改进算法和常规算法的效能,结果证明改进算法具有更高的决策能力。(3)考虑到使用深度强化学习算法进行决策时无法综合运用长时间的历史信息问题,将深度强化学习方法与长短期记忆网络相结合,在无人潜航器机动目标打靶场景以及红蓝双方对抗场景中,对改进算法进行了验证,结果表明,历史状态信息对于深度强化学习的决策能力而言具有积极影响。