论文部分内容阅读
随着导弹和飞机的机动性能大大提高,单纯的轨道拦截法己经不能满足空中防御的要求,作为一种双边对策的研究方法,微分对策在空中拦截中的应用有了重要的意义。但是由于微分对策理论来源于最优控制理论,因此它需要精确的数学模型,以及在求解时会遇到非线性两点边值问题和奇异面问题,所以其应用很困难。 近年来,随着人工智能的兴起,国内外许多学者致力于将智能控制理论引入微分对策理论的研究中,以解决其应用的问题。而要达到智能化制导就不可避免地涉及知识的自动提取和利用问题。作为机器学习的一种方法,增强学习恰可使知识的获取过程自动化,并扩展所能得到的知识资源范围。 本文研究了三维空间的空中拦截的动态对策问题,采用增强学习与微分对策相结合的方法,避免了传统的控制理论根据被控对象的精确数学模型和性能指标来求解最优解析解的方法带来的困难。并依据人的模糊思维建立类似于空战的对策准则,实现状态空间的离散化以减小动作空间范围,提高网络学习效率。 本文针对传统增强学习中出现的“维数灾难”问题以及学习问题中的“StructureCredit-Assignment”问题采用Elman神经网络近似Q-学习的评价函数的解决方法。 然后应用提出的方法作了三维空中拦截的仿真,仿真结果验证了本文所采用的方法的有效性,表明将增强学习与微分对策理论相结合,并应用于对机动的机动目标拦截问题中是一种有前途的发展方向。 本文首先分析空中拦截的重要性及其研究方法的发展,并给出设计方案的依据及总体框架。在第二章介绍了增强学习的特点、发展历史和各种算法。在第三章设计了基于Q-学习的微分对策方法。第四章应用双方优化的方法、第五章应用双边优化和单边优化相结合的方法,分别提供了空中拦截智能制导的实现方法的仿真试验,并对仿真结果作了分析。