【摘 要】
:
无人驾驶汽车是传感器、网络通信和信息安全等多种先进技术融合下的产物,包含感知、决策规划和动作执行三大模块。其中决策规划模块等同于人类的大脑,是无人驾驶系统中最核心的部分。近些年随着AI技术的飞速发展,强化学习逐渐崭露头角并成为了通往智慧型未来的主流方法之一。本文将以强化学习为手段设计面向无人驾驶汽车车道保持的决策方案,并在虚拟仿真环境下验证方案的可行性和有效性。首先,本文研究了典型的无人驾驶系统,
论文部分内容阅读
无人驾驶汽车是传感器、网络通信和信息安全等多种先进技术融合下的产物,包含感知、决策规划和动作执行三大模块。其中决策规划模块等同于人类的大脑,是无人驾驶系统中最核心的部分。近些年随着AI技术的飞速发展,强化学习逐渐崭露头角并成为了通往智慧型未来的主流方法之一。本文将以强化学习为手段设计面向无人驾驶汽车车道保持的决策方案,并在虚拟仿真环境下验证方案的可行性和有效性。首先,本文研究了典型的无人驾驶系统,对各模块在驾驶车辆过程中所负责的具体任务进行了探讨。另外,本文不仅研究了PID控制器和深度学习的基础知识,以及强化学习的关键理论,而且对深度强化学习算法DQN(Deep Q-Learning Network)展开了深入探讨。其次,设计了基于DQN端到端的决策方法,在CARLA平台进行了车道保持的仿真实验。实验中,不但设计了通用的状态空间,而且设计了不同形式的环境奖励函数。通过对比DQN Agent在两个奖励函数下训练和测试的具体表现,确定了更能正确引导Agent自我提升的奖励函数形式,同时也证明了奖励函数在强化学习中的重要地位。再者,根据DQN算法下Agent的决策表现,提出了其改进版TGDQN(two-stream GRU DQN)。除改进重播过往经验的方式(以提高经验缓冲区数据的利用率)之外,还将算法的网络架构更改为两个并行的流,以区分瞬时奖励中来自环境状态的部分奖励和执行动作的部分奖励。与此同时使用循环神经网络GRU(Gated Recurrent Unit)来改善无人驾驶MDP(Markov Decision Processes)的状态部分观测问题。最后,分别设计了基于TGDQN端到端的决策方法以及TGDQN和PID组合式的决策方法并进行了仿真实验。通过对比三种决策方式下,Agent在训练过程的回合奖励变化以及测试过程的任务平均完成度,验证了TGDQN算法的决策能力大幅度优异于DQN,证明本文改进DQN算法手段的优异性。此外,组合式决策的水准仅次于TGDQN,表明强化学习和传统控制方法的结合是切实可行的。图48幅,表18个,参考文献66篇。
其他文献
数字图像广泛应用于新闻传媒、司法鉴定、法庭取证等各个领域,然而随着信息技术的发展,智能手机、相机的普及使得越来越多强大的数字图像编辑器得到开发和使用。更多的用户能够对图像进行自由随意的处理和修改,使得部分恶意用户有了可乘之机,因此图像的真实性和完整性难以保证。图像模糊操作的取证研究通过技术手段揭示图像操作历史,验证图像数据的真实性和完整性。本文基于传统特征方法和深度学习方法进行了模糊操作取证的研究
根据现行动车组检修规程的要求,动车组的运行里程是决定其进入高级修的时机的主要依据,准确的动车组运行里程预测结果是编制合理的高级修计划的基础前提。目前,随着我国高铁规模不断扩大,投入运营的动车组不断增多,各检修单位所能提供的高级修检修资源显得愈发有限,这对高级修检修计划的编制提出了新的挑战,也间接对动车组运行里程预测方法提出了更高的要求。当前普遍采用以动车组日均走行里程数为关键参数的推算法来预测动车
柔性机械臂具有多自由度、可以实现多方向弯曲以及布置灵活等显著优点,在工业中有广泛的用途。本文针对排水管道检测机器人和清淤机器人的需求,研制了电机-钢丝绳驱动的机械弹簧式柔性臂及摆动气缸驱动的复合软管式柔性臂,应用力学理论分析了两种机械柔性臂的弯曲特性,通过了实验验证并成功应用于排水管道检测与清淤机器人。本论文主要做了以下工作:建立两种柔性臂的弯曲静态模型并进行实验验证。通过力学分析,建立了弹簧在弯
与轮式和履带式机器人相比,步行移动机器人在面对复杂的地形环境时表现出更强的灵活性、适应性和机动性,因此被广泛应用众多领域,成为移动机器人的研究热点。根据支链的形式可将步行机器人分为开链式和闭链式两类,闭链连杆步行机器人因其具有多腿少驱动特性、曲柄周转高频驱动特性、整体闭链高刚度特性及高可靠性特性等优势受到广泛关注,但其单一的足端轨迹反映出其适应能力较低的缺点,限制了其应用场景,因此设计出一款具有高
干涉型光纤传感器由于其抗电磁干扰、耐腐蚀、探测灵敏度高、体积小、易于集成、探头本征无源等突出优势,在水声探测及地震海啸预警等领域中的研究和应用越来越广泛。在振动传感系统中,结合光学复用技术能够形成大规模的干涉型传感阵列,从而实现准分布式传感结构。同时基于声光调制器产生的脉冲信号具有较高消光比,有助于提升准分布式系统整体的性能。此外,干涉信号的相位解调方法也在检测过程中起到了关键性作用。因此以准分布
空间机械臂在太空中要完成许多复杂的任务,而且真空、失重、温差大的恶劣运行环境也为空间机械臂带来了很强的外扰,因此为空间机械臂设计精度高、抗扰能力强的位置控制策略是很有意义的。关节作为空间机械臂的核心组件,对空间机械臂的平稳运行起着至关重要的作用。关节的柔性、驱动电机的输出平稳性均影响空间机械臂的控制精度,因此本文考虑以上因素,对柔性关节机械臂系统的高精度位置控制开展研究。首先采用了基于端口受控哈密
在无人驾驶领域,驾驶决策是当前研究的热点和难点问题。深度强化学习(Deep Reinforcement Learning,DRL)算法寻求以端到端的方式解决问题,但一般需要大量的样本数据,同时面临输入数据复杂性高、模型复杂的问题,导致驾驶策略学习算法收敛速度慢,无法快速学习到有效策略。驾驶策略与多种因素相关,目前采用DRL的方法大多采用简单的约束奖励函数,仅能适应简单交通场景。由于实际交通场景复杂
随着深度学习的发展,全监督学习在计算机视觉、自然语言处理和语音识别等多个领域取得了巨大的进步。全监督学习依赖大量的数据标注,而大规模精细化标注需要很高的成本,影响了全监督学习进一步发展。弱监督学习只需利用不完整、不确切或不准确的数据标注,便可以完成与全监督学习相同的机器学习任务。因此,基于弱监督学习方法的研究具有重要现实应用意义。本文聚焦于以图像级类别标签为弱监督标注的目标定位研究。针对现有弱监督
随着计算机技术与人工智能的飞速发展,利用数字化智能化手段实现非物质文化资源的保护与传承已成为重要的研究课题。拉班舞谱是一种科学的人体动作分析记录体系,在全世界范围内被广泛应用和传播。作为一种便于存储的书面记录形式,拉班舞谱在记录和保存传统舞蹈方面发挥了巨大作用。由于手工记谱繁琐复杂,运用计算机技术的舞谱自动生成方法应运而生。然而,传统舞谱生成框架下的算法依赖于预先的动作分割,无法进行全局优化;普遍
二氧化碳排放所导致的全球变暖问题给生态环境带来了不可逆的破坏,实现“碳达峰、碳中和”目标已成为世界各国共同努力的方向。努力提升可再生能源发电占比则是持续推进碳减排,助力碳中和最终目标实现的重要手段。风电作为可再生能源发电的主要形式,也必将迎来大规模的发展。然而由于风电自身所固有的间歇性、随机性及波动性特点,其大规模并网会给电力系统带来较大的随机波动功率,对系统频率带来不利影响。自动发电控制(Aut