基于强化学习的移动机器人室内导航方法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:sanrenET
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,我国装修市场迫切需要研发出能够代替人类进行复杂工作的装修机器人。装修机器人最重要的技术之一是自主导航技术,即在任何室内环境中,机器人具备快速到达目标点进行装修工作的能力。基于深度强化学习的自主导航技术利用机器人获得的环境信息,能够在无地图的情况下控制装修机器人快速到达目标位置完成导航任务。在之前的研究中,无论是利用基于视觉传感器还是或激光雷达传感器的深度强化学习导航算法,均存在两个亟待解决的问题:一是导航算法训练速度慢,二是导航算法不具备通用性。本文创新地提出了两种算法:基于Transformer的视觉导航方法和基于均值DDPG算法的激光雷达导航算法,以解决当前导航方法中模型训练慢和通用性差的问题。(1)基于Transformer的视觉导航方法,能够帮助智能体更快速地适应新环境。该算法以现有的导师-学生框架为基础,在传统卷积神经网络模块中加入两个Transformer模块,以提高智能体对重要视觉特征的重视,从而提高算法的收敛速度,并提高算法在新环境中的适应能力。同时,本文在利用Viz Doom自主搭建的虚拟装修室内环境中,验证了该算法的有效性。(2)基于均值DDPG算法的激光雷达导航方法,改进了三个模块:一是均值DDPG网络算法,能够缓解Q值高估问题;二是高斯行为策略,能够帮助智能体更有效地探索环境;三是多经验池结构,有助于智能体学习最近的和最重要的经验。三个改进模块可以有效地提高算法的训练速度和通用性。其次,本文利用Gazebo和Ros构建了适用于研究室内移动机器人导航的虚拟环境,提供了一种新的奖励函数构建方式,包含基础奖励和基于势能的额外奖励,这种奖励函数能够有效的帮助算法收敛。最后,本文对比了均值DDPG算法和标准DDPG算法的导航性能,证明所提出基于均值DDPG算法的导航方法的优越性。
其他文献
古代工匠作为造物的直接主导者和参与者,其整个群体的审美趣味是时代文化意蕴的凝结,是审美文化的体现。汉代是古代丝绸之路的开拓期,时代视野广阔,呈现出大一统的生机蓬勃和征服世界的信念气势。随着丝绸之路的开通,汉代中原地区的工匠,无论是在造物表现形式上还是审美趣味上,都受到了西域文化不同程度的影响,在应对外来文化的态度和审美表现的处理方式上对现代设计有着借鉴意义。文章通过对工匠审美趣味的形成因素进行分析
学位
随着科技和社会的发展,实时操作系统已经应用到了人们生活的方方面面,尤其是航空航天,移动设备以及汽车等领域,已经离不开实时操作系统的支持。与普通的操作系统相比,实时操作系统通常要求能够严格保证任务在特定时间内完成,不能有较长的延迟,评价实时操作系统好坏的一个重要方式就是分析它的实时性。因此,本文针对影响实时操作系统实时性的重要因素做了研究和分析,针对这些因素设计了实时性的分析方法。最坏执行时间(Wo
学位
在复杂多变的环境下,企业发展战略规划和内部管理制度能否及时适应环境做出改变,是企业能否长远发展的关键。而全面预算管理能否有效实施是能否实现战略目标的关键。此外,面临环境的多变性,企业的管理不能一成不变,需要及时做出调整。但是传统的预算管理在企业发展中越来越显示出其刚性、迟滞性、拘泥性,缺乏与企业战略之间的连接,没有有效地促进企业战略的实现。因此,柔性战略与全面预算如何有效融合、互相成就是企业能否在
学位
在过去的十年中,图神经网络在实体推断领域取得了巨大的成功,图神经网络因此也广泛应用于节点分类、实体对齐等任务。在图神经网络快速发展的同时,图网络涉及的隐私安全问题也逐渐引起了人们的关注。人们在外包图数据给云服务商计算的同时,会担心自己的敏感图数据是否会被泄露;多个用户在共享图数据,合作挖掘更多有价值的信息时,也会担心自己的数据是否会泄露个人的隐私。因此,越来越多的学者投身于安全的图神经网络研究,在
学位
视觉里程计问题一直以来都是计算机视觉领域的一个研究热点课题,它在智能机器人、自动驾驶、无人机导航等很多方面都有广泛的应用,是很多智能应用场景的基础架构支撑。因此,在该领域人们已经提出了多种方法,比如基于传统的图像处理方式,通过设计不同的算子来对图像进行特征检测和匹配,再结合几何关系来进行相机的位姿求解。此外,也有人提出基于深度学习的方法,通过设计构建特殊的神经网络架构,并经过训练优化,实现端到端的
学位
文物作为人类文明宝贵的历史遗产,具有不可替代性和不可再生性。除了自然损耗外,天灾、战争和人为破坏也使得文物数量日益减少。现代比较普遍的文物保护方法是将文物放置于博物馆内进行集中保存和供人参观。然而随着城市建设的快速发展,博物馆周边施工活动产生的振动对博物馆内文物影响愈发明显,尤其是对体量巨大、难以移动的石造像类文物的影响更是不容忽视。但目前对于这类文物在施工扰动下的损伤特征、振动阈值都缺乏相应的研
学位
问答系统是自然语言处理领域里几个研究重点之一,在实际场景中有重要应用。其目的在于人们以文本语言向模型给出问题,模型通过正确分析语义信息和文本内容后给出问题的正确答案。但是随着数据和场景的复杂化,现有的简单文本问答系统和纯表格的问答系统已经无法完成问答任务。随着复杂文本结构数据集的提出、检索算法和阅读理解算法的创新优化给现有的简单问答系统提供了新的解决方向。对于现在的复杂文本结构数据,现有的问答系统
学位
由于多目标跟踪(Multi-Objects Tracking,MOT)技术已在现实生活中广泛的应用,越来越多的学者对其展开更加深入的研究,以提升跟踪性能。目前,多目标追踪方式主要包括基于检测的多目标追踪、联合检测和嵌入学习的多目标追踪,以及基于注意力机制的多目标追踪。而随着重识别(Re-Identification,ReID)技术的发展,有很多学者发现将其与多目标跟踪算法结合可以有效提升算法性能,
学位
传统的聚类方法是浅层方法,其特征学习能力较弱。深度聚类将深度神经网络使应用于聚类任务中,将聚类目标和数据的特征提取过程相结合,极大的提高了聚类方法尤其是在高维度数据上的效果。但传统聚类算法依赖于被聚类数据集本身,无法借助外部信息。而无监督域适应方法为应对现有的深度聚类方法的瓶颈提出了新思路。通过从源域转移知识,可以提高未标记目标域上深度聚类的性能。目前的无监督域适应算法大多数存在以下两个缺点:(1
学位
联邦学习是当下针对机器学习中隐私安全保护和数据孤岛问题的主要解决方法,并在物联网、医疗和金融等领域广泛应用。对于联邦学习系统在应用过程中广泛存在的用户稳定性和分布式计算管理的问题,异步联邦学习是较实际的解决办法。本文主要研究在基于卷积神经网络的异步联邦学习场景下,客户端怎样根据环境和资源条件异步控制训练流程,有效的避免因客户端出错和数据通信导致的联邦学习系统的稳定性问题,并对异步场景下的恶意攻击中
学位