【摘 要】
:
导航是移动机器人最重要的功能之一,传统导航系统的性能表现很大程度依赖于先验地图的质量,且由于环境的动态特性,系统往往需要耗费较多的计算资源和时间进行地图的更新与维护。本文尝试使用强化学习作为导航学习算法,使导航系统摆脱对先验地图的依赖。当前强化学习所面临的主要挑战包括学习效率偏低以及泛化性能较弱,这直接限制了此项技术在真实环境中的应用部署,而智能体用以描述世界的状态表征是导致这些问题的重要因素之一
论文部分内容阅读
导航是移动机器人最重要的功能之一,传统导航系统的性能表现很大程度依赖于先验地图的质量,且由于环境的动态特性,系统往往需要耗费较多的计算资源和时间进行地图的更新与维护。本文尝试使用强化学习作为导航学习算法,使导航系统摆脱对先验地图的依赖。当前强化学习所面临的主要挑战包括学习效率偏低以及泛化性能较弱,这直接限制了此项技术在真实环境中的应用部署,而智能体用以描述世界的状态表征是导致这些问题的重要因素之一。本研究从状态表征入手,通过为智能体提供高效紧凑的状态表征,提高强化学习算法的学习效率与泛化性能。论文首先针对静态环境,将智能体的状态表征与策略分开训练,并对前者进行专门的优化。具体来说,针对视觉数据,本研究采用一种被称为对比学习的方法进行状态表征学习。同时,由于传统卷积神经网络的感受域受限于卷积核的大小和形状,智能体很难查询距离较远的像素点之间的相关性,因此本文提出使用注意力机制替代卷积层的方法,在不加深模型深度的情况下,使模型能够直接查询像素之间的相关性,并获得能够对整张图像关键信息做出紧凑概括的固定长度的向量,从而降低无关信息对智能体决策的影响。实验结果表明,相比于当前主要的状态表征学习方法,该方法获得的状态表征提高了强化学习智能体的学习效率与泛化性能,并使其所能获得的最高奖励提升一倍以上。然而,由于真实场景是动态的,具有不确定性,采用上述将状态表征与策略分开训练的做法可能会使智能体在状态表征学习阶段忽略对环境不确定性的考虑,因此第二部分的研究针对多智能体动态环境,采用状态表征与策略联合训练的方式,在学习策略的同时针对状态表征进行优化。具体来说,通过在多智能体系统中嵌入图注意力网络方法,使每个智能体学会只专注于系统中对其自身影响最大的其它智能体,并将智能体间共享信息中的关键部分编码成固定长度的特征向量,从而提高了强化学习算法的样本效率,并减低了多智能体系统对智能体数量的敏感性。感知是决策的基础。本研究为智能体提供了有效的环境状态表征,使其能够关注环境中的关键信息并屏蔽无关噪声,从而提高了决策的效率与质量,为后续强化学习技术部署到更加复杂的真实环境中提供了更好的感知基础。
其他文献
基于本征正交分解的四维集合变分同化方法(POD-4DEn Var),将四维变分和集合卡尔曼滤波方法相结合,既能构造具有流依赖性的背景误差协方差,又能同化多种类型的观测资料,并且不需要切线性和伴随模式的开发,由于其计算成本较低,因此是具有发展潜力的同化方法。本文利用该方法,开展了卫星和雷达资料的同化试验;同时,检验了卫星资料的全空同化效果,主要工作和结论如下:首先,本文利用POD-4DEn Var方
近年来,世界各国无人机集群智能化水平越来越高,威胁性分析越来越难,因此从无人机集群底层离散数据中推理出无人机集群内部各节点之间的交互作用关系,挖掘出高层次语义信息,如预测出无人机集群的未来运动状态、识别出关键节点,能够为理解无人机集群作战阵型、作战模型、作战意图等提供一条改进完善的新思路。本文根据无人机集群底层位置、速度等信息对无人机集群内部各节点之间的交互作用关系进行推理,得到表示节点之间交互作
图分类是指根据图的拓扑结构和属性信息预测它的标签,它是图数据处理分析中非常具有研究意义的一项任务,在真实世界中具有广泛的应用,例如病毒分类、社区分类、基因突变检测、酶的活性检测。图分类问题的研究主要分为基于图核的图分类方法、基于卷积神经网络的图分类方法和基于图神经网络的图分类方法。基于图核的方法使用基于核函数的学习方法来直接在图上操作,从而对图进行分类。这类方法通常涉及图的分解和映射,时间复杂度较
为增加决策的科学性与有效性,共识决策越来越广泛地被应用于现实决策中,其主要研究如何协调不同决策者之间的偏好以获得群体内部广泛接受的一致意见或解决方案。共识达成往往需消耗大量的时间和资源,如何以最小成本达成共识是群体决策的重要目标之一。由于决策者在共识达成过程中因意见调整方向差异而期望不同的边际补偿,因此单位意见调整成本一般具有非对称性。此外,在实际决策中,决策者往往以区间型意见代替精确意见值,这主
云制造作为一种新的制造模式,通过对地理位置分布不同的企业的资源进行统一的管理和调度,提高了资源的共享性和资源利用率,同时能够更快地响应市场的个性化需求。云制造的相关研究有助于实现中国制造向中国创造的发展。针对个性化产品配置决策和个性化生产配置决策问题,研究人员进行了不少卓有成效的研究。但是,上述研究主要从单个产品、或者单个产品和供应链结合的角度进行研究,很少从“互联网+”云制造的角度出发来研究产品
移动互联网的快速发展促进了智能手机用户的高速增长,智能手机应用涌现而出,为用户提供了丰富的功能,为个人生活提供了便利。与此同时,大量恶意智能手机应用出现,严重威胁着手机用户的安全。其中,安卓操作系统由于其开源性和流行性成为了恶意应用开发者的主要目标,研究安卓应用检测技术对于提高用户的安全性具有重要价值。随着安卓恶意应用检测技术的不断发展,越来越多的恶意应用采用混淆技术来逃避检测,这致使现有的检测技
互联网电商时代,数字化信息快速发展,市场上的商品信息逐步透明化。聚焦于零售服装行业,服装销售市场是一类完全竞争市场,价格成为消费者追求服装商品高性价比的重要因素,基于小生境理论,大规模服装市场上每个成熟的单品类细分市场,具有相对稳定的基于价格维度的需求分布,即基于服装单品类细分市场,在不同价格区间上有对应的相对稳定的市场需求。本文从零售商视角,提出一种基于单品类细分市场在价格维度的服装计划方法,本
图像复原技术是一种用于提升地基光学望远镜观测到的空间目标图像的分辨率,提升图像质量,丰富图像细节信息的图像后处理技术,在天文观测、目标识别、太空探索以及军事侦察等领域都具有重要研究意义。但由于图像复原问题是一个病态性的反问题,解空间庞大,求解过程容易陷入局部极值解,复原结果对初值估计和先验约束等因素比较敏感。为了提升图像复原算法的性能,本文研究了一种基于成像哈特曼的多通道图像复原算法,该算法将图像
当下瞬息万变的外界环境对企业等组织的响应速度提出了更高的要求,许多企业尝试突破组织边界,整合资源,临时团队应运而生。然而对企业来说,临时团队既是机会也是威胁。许多临时团队甚至还未完成任务就濒临解散。是什么因素导致临时团队表现不佳?该如何改善?这对企业来说是一个具有现实意义的问题。研究发现成员多样性带来的团队冲突是导致临时团队绩效不佳的关键因素。团队冲突并不是一个新的研究话题,许多学者对团队冲突与团
卷积神经网络被广泛地应用于图像分类、语音识别等领域。复杂多样的应用场景对网络计算的速度与能耗提出了更严苛的要求,并因此催生了一大批专用加速器。然而基于CMOS器件的加速器通常采用存算分离的冯诺依曼架构,由于数据在存储单元和计算单元之间的频繁搬移引入了大量功耗。基于以忆阻器为代表的新型非易失器件可以方便地模拟生物神经突触结构,实现突触权重存储与乘累加运算一体的非冯计算架构,并极大地提高计算能效,因此