基于深度强化学习的自动驾驶决策方法研究

来源 :北京交通大学 | 被引量 : 3次 | 上传用户:tawj68
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动驾驶汽车是传感器、网络通信、导航定位、人工智能等多学科综合体,其中导航定位、路径规划、行为决策和车辆控制等是自动驾驶的关键技术。本文针对自动驾驶中的行为决策部分展开研究。随着AI技术的迅速发展,通过深度强化学习算法实现自动驾驶行为决策成为自动驾驶技术的研究热点之一。本文将在虚拟环境下面向自动驾驶进行基于深度强化学习算法的自动驾驶决策方法实践、改进和仿真验证。首先,介绍了强化学习是通过智能体在环境中的试错学习来匹配状态与动作策略的。从强化学习的组成要素和学习过程展开叙述,对多个强化学习原理、框架和强化学习算法网络结构进行了详尽的介绍。还介绍了本文的主要算法强化学习与深度学习的结合方法——深度强化学习方法。其中深度确定性策略梯度强化学习算法(Deep Deterministic Policy Gradient,DDPG)作为深度强化学习算法中的经典算法之一,可以产生确定性的动作策略。软行动者-评论家算法(Soft Actor-Critic,SAC)是在原始深度强化学习的目标函数的基础上加入了最大熵项,在连续控制问题上表现出很大的优势。其次,本文基于开源平台TORCS,采用这两种算法进行自动驾驶仿真实验。实验过程中,设计了基于仿真环境信息和相关交通规则的奖励函数,加入驾驶平稳性约束条件,利用车身周围的雷达测距传感器信息进行自动驾驶决策。同时,在对已有的面向自动驾驶仿真DDPG算法与SAC算法的对比实验中,发现了SAC算法的收敛速度较慢等问题。最后,提出了一种更改经验池存储方式的改进的SAC算法。在对比实验中,验证了本文所提出的具有增减经验池的改进的SAC算法在缩短训练时间、提高算法稳定性、改善算法模型泛化能力等方面均表现优异。本文还定义了出错率作为参考指标,在测试时改进SAC算法模型的出错率相比DDPG算法模型降低了10%左右。
其他文献
我国的农村土地的所有权属于集体,土地承包经营权属于农户。研究农村土地承包经营权流转,是新时期新形势下破解“三农”问题的钥匙,更是保障农民权益、促进社会各项事业协调发展,实现中国梦的必要课题。伴随着我国城镇化的逐步推进,原有耕种的土地被集中起来,迫切需要规模化、集约化经营。农村土地承包经营权流转是大势所趋,也是调整农业产业结构、促进农业发展、实现产业协调的必经之路。然而,我国农村土地承包经营权流转起
随着政府多个“加快建设”政策的下发,社会节奏经历了不断的提速,人们日益感受到时间的匮乏。其中个体所感知的工作任务所需时间大于自身可利用时间的程度被称为工作时间压力
<正>腹泻型肠易激综合征是临床上常见的一种肠道功能紊乱性疾病,其病因和发病机制尚不十分清楚,临床治疗主要是对症处理[1]。由于肠易激综合征属于身心疾病,患者多有负性心理
期刊
对引进的4个黄金果优株在广西南宁的植物学特征、主要经济性状、物候期、生长结果习性等方面进行栽培观察和比较分析,结果显示台引T3号黄金果果实平均单果重为381.69 g、可溶
<正>~~
会议
大型水生植物在水环境生态系统中占据着极其重要的地位,有着显著的初级生产功能以及环境生态功能,是水环境生态系统的重要组成因子,其生长和衰亡对水体环境的质量及演化都有着十分重要的意义。当大型水生植物进入衰亡期后,其植物残体对湖泊的生态循环以及氮、磷等营养元素的生物地球化学循环起着至关重要的作用,是水生态系统物质循环和能量流动的关键环节,因此加强对大型水生植物腐烂分解过程的研究,可以为水环境生态学方面的
Momenta公司作为一家高科技型新创企业,发展态势良好。紧紧抓住了自动驾驶这个机遇,集合了国内外顶尖的人工智能深度学习的专家,致力于打造一个能与人脑匹敌的智能驾驶大脑。自无人驾驶技术实现立项后,民众增加了安全便捷出行的选项。Momenta公司作为一家技术型初创企业,正经历着企业文化塑造的关键阶段。来自不同领域、地区的员工和管理者,汇聚一起共同工作,彼此之间存在着差异性较强的文化观念,文化冲突很有
目的探讨子宫下段螺旋式缝合术在治疗凶险性前置胎盘中的应用效果。方法选取2018年3-7月在华中科技大学同济医学院附属同济医院住院治疗的凶险性前置胎盘患者16例,在剖宫产胎
<正>华能九台电厂党委深刻认识到党建工作,做实就是生产力、做强就是战斗力、做细就是凝聚力。深化基层党组织建设质量,助力"提质增效、持续盈利"攻坚战,使党建工作和生产经
人工智能是作为新一轮科技革命和产业变革的重要驱动力,是引领未来的战略性技术,已正式上升为国家战略。而人工智能中一个非常重要分支就是自动推理,自动推理的大量工作都集中在定理机器证明中。定理机器证明是指使用计算机证明定理的成立,即把人证明定理的过程,通过一套符号体系加以形式化,变成一系列在计算机上自动实现的符号计算的过程[1],它是人工智能近代主攻的课题之一。Coq是一个基于归纳构造演算的交互式定理证