【摘 要】
:
决策作为人工智能领域的重要研究方向之一,目前已存在许多重要的研究成果。由于智能体实际所处的环境往往是动态、不确定的,很难对环境变化进行提前预测,所以,针对变化的环境进行决策也就更加困难。智能体在未知环境中的自适应决策能力决定了其智能化的程度,也就是说,智能体在面对动态不确定的环境时,需要采取相应的自适应行为,然而传统的控制方法已经无法满足工程实践需求。针对此类问题,本文利用深度学习的强大感知能力和
论文部分内容阅读
决策作为人工智能领域的重要研究方向之一,目前已存在许多重要的研究成果。由于智能体实际所处的环境往往是动态、不确定的,很难对环境变化进行提前预测,所以,针对变化的环境进行决策也就更加困难。智能体在未知环境中的自适应决策能力决定了其智能化的程度,也就是说,智能体在面对动态不确定的环境时,需要采取相应的自适应行为,然而传统的控制方法已经无法满足工程实践需求。针对此类问题,本文利用深度学习的强大感知能力和强化学习的高效决策能力解决智能体自适应决策问题,通过深度强化学习算法训练智能体,使其在与环境进行交互的过程中总结经验,从而形成自身对具体行为应用的认识。由于深度强化学习算法在现实环境中做实体训练比较困难,本文以仿真环境下无人机反拦截任务为载体,基于深度强化学习Soft Actor-Critic(SAC)算法对智能体自适应决策问题展开研究,并针对训练过程中出现的问题对SAC算法进行改进。SAC作为一种高效的无模型深度强化学习算法,能够满足智能体在复杂环境中通过学习获取技能的需求。本文首先介绍了基于深度强化学习算法解决智能体自适应决策问题的研究意义,阐述了国内外深度强化学习和智能体自适应决策的研究现状,对深度学习和一些经典的强化学习算法进行了综述,进而引出了深度强化学习算法,论述了深度强化学习算法的概念和几种经典的深度强化学习算法。其次,基于Pygame、Tensorflow、Python等软件平台搭建仿真环境,以PyCharm为开发工具验证相关算法的有效性。本文搭建的无人机反拦截仿真环境来源于某涉密项目场景,主要是我方无人机从起点飞机场出发,沿途侦查的过程中需要突破对方导弹的拦截并顺利降落在目标飞机场的问题,为无人机建立了其运动学模型,使其更加接近现实场景。然后,将SAC算法应用于无人机反拦截任务,针对训练过程中出现的问题,对SAC算法进行改进,不断提升智能体的自适应决策能力。本文从改进经验回放策略入手,将SAC算法分别和优先经验回放(Prioritized Experience Replay,PER)策略、强调近期经验回放(Emphasizing Recent Experience,ERE)策略相结合,提出了 SAC+PER、SAC+ERE和SAC+PER+ERE算法,通过改变SAC算法经验回放中的“采样策略”,提高算法的学习效率和收敛速度,使得算法更稳定。最后,通过仿真实验验证了算法的有效性,并将原始SAC算法与SAC+PER、SAC+ERE和SAC+PER+ERE算法进行比较,证明改进算法具有更高的学习效率以及更好的鲁棒性。
其他文献
当前,县级融媒改革正在深入推进。在这场改革大潮中,历史最悠久的广播媒体在剥离了经营创收、技术保障等职能后,成为一个纯粹的节目生产部门,承担着广播事业发展的主要职责。要实现融媒背景下县级广播的新发展,一方面要正确认识并充分发挥广播的特性与优势,另一方面必须借力新媒体平台,坚定不移地走好融合发展之路。
少先队是一个温暖的大家庭,少先队员在学校辅导员的指引下健康成长。广西南宁市天桃实验学校立足学校实际,将少先队活动作为必修课程每周设置一个课时。学校在实施少先队工作中不断创新,以"四性三坚持"为基本工作路径,引导少先队员热爱党、热爱祖国、热爱人民,传承红色基因,争当时代新人。
在有限群的研究中,超可解子群起着十分重要的作用.人们试图从群的结构与某些子群之间的关系研究超可解群,从而重新刻画了有限群的结构及性质,得到了大量有用的结果.从群的基本定义及相关引理出发,本人着重整理了群论学者关于超可解群方面的定理,包括条件置换、完全条件置换、共轭可换子群及s-拟正规子群对群的超可解性的影响,进而写出了自己的研究成果.特别是从极大循环子群在G中的条件置换上,研究群的超可解性,以及从
压电陶瓷由于可以√实现电能与机械能的转换,使其得到了广泛的应用。而目前市场中应用最多的锆钛酸铅压电陶瓷中有过高的铅含量,在制造和使用过程中对环境和人体有极大的危害,因此研究无铅压电材料成为了必要。近年来,无铅压电陶瓷的研究获得了重大的突破,但其电学性能仍然与铅基压电材料无法相比。本文以(Ba0.99Ca0.01)(Zr0.02Ti0.98)O3(简称BCZT)为基体,通过掺杂改性和改善制备工艺等方
20世纪以来的人类发展史是一部波澜壮阔的城市文明塑造史,在风起云涌的世界城镇化国家公共档案中探路中国,进而在国家百年变迁中厘清中国城镇化由"规模"到"质量"的战略性转型理路,是进一步思考"城镇化、教育与中国发展"这一宏大理论命题的前提。研究发现:中国城镇化与教育具有深度持续互动关系:一方面,中国城镇化作为结构性因素,对教育起决定性作用。该决定性作用主要体现在中国城镇化"决定了传统教育公共管理体制变
《市级国土空间总体规划编制指南(试行)》提出的基于单一主导功能用途的国土空间总体规划分区类型在山地地区的县级国土空间总体规划分区中的适用性较弱,且规划分区的具体技术流程也未有明确;当前,部分省份发布的县(市)级指南又局限于地方的针对性而缺乏普遍指导性。基于此,文章针对我国山地地区普遍出现的“双评价”结果和土地现状用途在农业生产适宜性上存在明显差异、空间功能细碎混合、地下矿产空间范围与生态保护红线等
隐马氏模型(the Hidden Markov Model, HMM)需要解决三个问题:解码问题、识别问题和学习问题,对这三个问题的回答构成了隐马氏模型的理论。其中学习问题(也称参数估计问题)是核心问题。本文主要讨论HMM的学习问题,并分别讨论了离散HMM和连续HMM参数估计算法,分析了HMM极大似然估计的大样本性质,另一方面,本文结合模糊信息技术提出了基于模糊聚类的HMM估计算法,解决了几类HM
县级融媒体中心如何"增肌壮骨",强化服务功能,整合资源,推动媒体集约发展,真正打通服务群众引导群众的"最后一公里",是当前必须面对的课题。桓台县融媒体中心大胆改革、先行先试,用"基因再造"焕发发展新动能。全面整合媒体资源,创新体制机制和技术手段,加快传统媒体转型升级,打造具备融媒体新闻加工传播、民生服务、政务公开、舆论引导等功能的新型融媒体机构,不断增强主流媒体的传播力、影响力、公信力,趟出一条可
化学就是研究物质的结构和性质,进而在一定的信息条件下改进物质或创造新物质,也就是说化学的最高境界是"创造"。我们学习乙酸不能仅停留在知识了解与简单应用上,而应将知识相互联系即从微观的角度剖析结构,在宏观辨析和微观探析中建构知识,在主动的科学探究中,发现新变化,创造新物质,最终提高学科核心素养。近年来,关于"乙酸"的教学设计层出不穷,文献集中在教师展示球棍模型分析乙酸结构的教学设计[1]、按课
我国实现“中国制造2025”国家战略的关键是实现智能制造,而机器人是实现智能制造的关键。机械臂作为机器人的一种,主要执行包括焊接、喷涂、装配、搬运、抛光等需要柔顺操作的任务。机械臂的柔顺操作主要依赖对机械臂力的柔顺控制,利用柔顺控制可以完成大量复杂的工作,因此,机械臂的柔顺控制是目前机器人领域一个重要的研究方向。本文围绕机械臂的柔顺控制,进行机械臂末端负载动力学参数辨识方法、末端接触力感知、末端碰