基于深度强化学习的多机器人未知环境探索算法研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:miss3yoyo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多机器人环境探索问题作为机器人研究领域的重要分支,旨在指导多机器人高效协同完成环境认知,被广泛应用于工农业生产。长期以来,该问题的研究主要基于随机、贪心策略等,虽有一定成效,但仍面临以下问题:(1)传统探索策略由于手工编码规则的局限性,在多机器人系统中难以利用环境结构等抽象信息做出高效决策和协同;(2)由于环境的变动或者规划的误差,机器人在移动过程中可能会受到未知障碍物等非预期状况的影响。针对这些问题,本论文利用深度强化学习指导机器人进行目标决策和移动导航,使其高效完成探索任务。主要工作有:(1)针对多机器人探索场景中难以利用环境结构等抽象信息做出高效协同决策的问题提出基于多智能体强化学习的目标点选取算法。本论文采用多智能体深度强化学习的方法,在训练过程中利用深度神经网络从大量建筑物平面图中提取环境的结构信息作为先验知识加速探索过程。同时,改进经验池结构,引入循环神经网络提取机器人观察中的时序信息,以弥补机器人观测局限性所带来的不足。最后,提出了分层通信的机制,使机器人通过少量的数据传输实现高效的协同探索。在时间、路程以及通信方面,本文所提的方法相较于传统的策略有明显提升。(2)针对由于环境变动或规划误差导致的非预期状况,本文提出基于深度强化学习的局部路径规划算法。本文通过强化学习算法习得控制策略,利用神经网络处理机器人感知到的环境数据,并以控制机器人双轮转速的形式直接控制机器人的运动路径。同时,结合传统路径规划算法,使得机器人在按照既定路线到达目标点的同时能够有效躲避所遇到的未知障碍物。最后,本文还提出了基于机器人操作系统的强化学习框架,为面向机器人的训练仿真和迁移提供平台支撑。通过仿真验证,本文所提出的方法能够有效指引机器人按照既定路线到达目标点。同时,具备一定的应对非预期状况的能力。针对所提出的解决方案,本文在多个仿真平台上进行了实验评估。实验结果显示,相较于传统的探索策略,本文的解决方案使得多机器人在未知环境探索场景中的探索效率和自主控制能力有明显提升,由此验证了所提算法的有效性。
其他文献
雷达辐射源信号的分选与识别是电子战的重要组成部分与关键环节,一直是国内外学者的研究热点。近年来,随着雷达体制的升级与雷达信号技术的发展,电磁环境变得日益复杂,同时伴随各国电磁保密意识增强,提前获得非合作雷达辐射源的标签与调制方式等信息也越来越困难,这些对传统的雷达辐射源分选方法和手段带来了严峻挑战。针对上述问题,本文提出了使用无监督深度学习算法提取信号特征,并采用合适聚类算法完成非合作雷达辐射源信
学位
大量的云层覆盖严重影响卫星遥感影像的地物判读,为有效提高资源利用率,云检测已成为分析卫星遥感影像数据的首要工作。高空间分辨率遥感影像能够精确观察小空间尺度上的地表细节,但与此同时也对云检测技术提出更为严苛的要求。大多数高空间分辨率遥感影像仅含有红、绿、蓝、近红外四个波段,传统需要依赖大量特定波段的云检测算法难以对其发挥优势。因此,本文在研究国内外相关云检测算法的基础之上,结合深度学习技术提出具有普
学位
在通信对抗领域中,如何对通信辐射源个体进行准确识别一直以来是一个重点研究问题,是目标侦察系统亟待解决的关键技术之一,它依照通信发射器设备的物理层特性差异来分类识别不同的辐射源个体。通信辐射源个体识别技术对于通信网络结构的分析、目标威胁等级的评估和战术战略的决策等方面都有着关键性作用。在日益复杂的电磁环境下,传统的通信辐射源个体识别方法存在的自适应性不足和鲁棒性差的问题,导致其不能满足现代战场环境下
学位
2001年5月,昆曲被列为“人类口述的世界非物质文化遗产”名录,其传承六百年的文化价值得到世界认可。在这种背景下,国家和政府开始制定政策大力保护昆曲文化,以免昆曲逐渐消失在大众视野中。为了快速建立起大众对于昆曲的文化印象,设计师们从昆曲的众多文化元素中提取最为明显的视觉符号,进行设计并不断强化。虽然达到了最初的目的,但随着时间的推移,也让人们产生了严重的视觉审美疲劳,这为昆曲的有效传承带来了莫大阻
学位
对北美地区中密度纤维板产能进行分析,并描述北美国家中密度纤维板工厂变化情况。
期刊
<正>联合国粮农组织(FAO)和联合国欧洲经济委员会(UNECE)联合发布《林产品市场报告(2021—2022年度)》。该报告提供了联合国欧洲经济委员会区域(欧洲、北美、中亚和西亚国家)市场的全面分析,范围涵盖了原木、锯材、人造板、纸、纸板以及木浆,通过政策分析,评估主要趋势和驱动因素,其中人造板情况如下。
期刊
多机器人系统在各个领域有着广泛的应用,通过多机器人系统的群集控制实现大量自主个体的协同工作且保证其安全变得至关重要。受到生物群体行为的启发,本文对多机器人群集控制问题展开研究,针对传统群集控制算法需要建立精确模型和控制律设计工作较为繁琐的缺点,采用深度强化学习的方法实现多机器人群集控制。首先,针对多智能体深度确定性策略梯度算法学习效率低下、收敛速率慢的缺点,本文引入了优先经验回放机制,提出了强化学
学位
随着《乡村振兴战略规划(2018—2022)》的实施和大型城市减量发展的转型,相应地,风景园林专业在规划设计领域的发展将由面向城镇绿地逐步向乡村建设转变。但由于大多数高校园林专业在课程设置和教学中不够重视,导致绝大多数学生都较为缺乏乡村设计方面的知识和能力。因此,我们需要研究在“乡村振兴”战略背景下,研究风景园林专业教学与该战略的关系,调整教学内容,构建面向“乡村振兴”战略的教学模式。结合高校、企
期刊
在信息化作战的条件下,各类传感器收集的战场信息往往受限于复杂的地理、气象、水文和电磁环境而呈现高维度、高度稀疏和带有大量噪声的特点,如何正确运用人工智能方法分析这些数据内部的本质关系和内在信息非常重要。在这项研究中,我们以自然界中的一种天然的高维稀疏带噪声的数据——单细胞RNA测序数据为切入点,研究一类能面向该类数据做到准确分析的通用算法。单细胞RNA测序(scRNA-seq)聚类对于识别细胞类型
学位
随着航天技术的快速发展和在轨卫星的不断增多,卫星系统面临着更加复杂多样的任务需求和应用诉求,在以人工智能技术为引领的全球化技术革新与发展背景下,卫星系统呈现应急化、智能化和信息化发展态势,传统的方法很难适应新的需求与挑战。为了充分发挥卫星系统的效能,本文立足于敏捷卫星调度问题,以深度强化学习方法作为切入点,针对传统方法对任务特征信息和历史调度信息利用低这一基本缺点,面向任务优先级的精确统筹和高效的
学位