强化学习及其在空中拦截中的应用

来源 :沈阳工业大学 | 被引量 : 0次 | 上传用户:never03330
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着导弹和飞机的机动性能大大提高,单纯的轨道拦截法己经不能满足空中防御的要求,作为一种双边对策的研究方法,微分对策在空中拦截中的应用有了重要的意义。但是由于微分对策理论来源于最优控制理论,因此它需要精确的数学模型,以及在求解时会遇到非线性两点边值问题和奇异面问题,所以其应用很困难。 近年来,随着人工智能的兴起,国内外许多学者致力于将智能控制理论引入微分对策理论的研究中,以解决其应用的问题。而要达到智能化制导就不可避免地涉及知识的自动提取和利用问题。作为机器学习的一种方法,增强学习恰可使知识的获取过程自动化,并扩展所能得到的知识资源范围。 本文研究了三维空间的空中拦截的动态对策问题,采用增强学习与微分对策相结合的方法,避免了传统的控制理论根据被控对象的精确数学模型和性能指标来求解最优解析解的方法带来的困难。并依据人的模糊思维建立类似于空战的对策准则,实现状态空间的离散化以减小动作空间范围,提高网络学习效率。 本文针对传统增强学习中出现的“维数灾难”问题以及学习问题中的“StructureCredit-Assignment”问题采用Elman神经网络近似Q-学习的评价函数的解决方法。 然后应用提出的方法作了三维空中拦截的仿真,仿真结果验证了本文所采用的方法的有效性,表明将增强学习与微分对策理论相结合,并应用于对机动的机动目标拦截问题中是一种有前途的发展方向。 本文首先分析空中拦截的重要性及其研究方法的发展,并给出设计方案的依据及总体框架。在第二章介绍了增强学习的特点、发展历史和各种算法。在第三章设计了基于Q-学习的微分对策方法。第四章应用双方优化的方法、第五章应用双边优化和单边优化相结合的方法,分别提供了空中拦截智能制导的实现方法的仿真试验,并对仿真结果作了分析。
其他文献
在现代社会中达到道德与法律的互契,从制度层面看,既要将人类的道德理想与原则外化为法律规范,也要使法律内化为更高的道德权利与义务;从价值层面看,必须从传统文化和西方成
介绍了离子膜DF2806在山东东岳集团氟硅公司万吨级离子膜工业实验装置2年运行情况的总结。
目的探讨微创方法 (有限切开撬拔)复位跟骨骨折及植入钢板固定治疗跟骨骨折的疗效及伤口并发症。方法选取2014年1月至2016年1月我院跟骨骨折病例共76例81足,随机分成两组,观
土外山金矿床位于海南岛西部昌江地区,该金矿床产于戈枕脆韧性剪切带中,是一种迭加改造富集型多因复成矿床,矿体分布既受早~中元古代地层抱板群控制,又受区域性戈枕断裂及次一
<正>中国对商标专用权的取得采用注册原则,即按申请注册的先后来确定商标权的归属,即谁先申请商标注册,商标权就授予谁。由于采用注册原则,只有注册商标才受《商标法》保护,
<正>国家体育总局令第21号《体育竞赛裁判员管理办法》已于2015年7月1日经国家体育总局第10次局长办公会审议通过,现予公布,自2016年1月1日起施行。局长刘鹏2015年9月23日第
对断奶仔猪来说,适应新的食物是一个复杂的过程。可以采取哪些措施以确保仔猪平稳地从哺乳过渡到断奶?
期刊
[目的]通过对某学校暴发的一起腹泻的调查和处理分析,探索学校在预防此类事件应采取的措施及对策。[方法]对腹泻学生展开流行病学调查,采集食堂留样菜及包装食品、腹泻学生的
时代飞速发展,各样新技术层出不穷,台式机、笔记本电脑、平板、手机等各种终端工具在社会和学校迅速普及,改变了信息传播的时空和地域限制。教学媒体、学习资源、教学方法和