基于深度强化学习的自动驾驶决策仿真

来源 :中国科学院大学(中国科学院深圳先进技术研究院) | 被引量 : 25次 | 上传用户：fyq20061001

【摘要】

：

随着全球经济的不断发展和城镇化节奏的持续加速,全球汽车的保有量和道路里程数逐步增加。汽车尾气排放造成的污染、道路不断扩张带来的土地资源紧张以及交通事故等问题日益

【作者】

：

夏伟

【出处】

：

中国科学院大学(中国科学院深圳先进技术研究院)

【发表日期】

：

2017年01期

【关键词】

：

深度强化学习自动驾驶聚类神经网络

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着全球经济的不断发展和城镇化节奏的持续加速,全球汽车的保有量和道路里程数逐步增加。汽车尾气排放造成的污染、道路不断扩张带来的土地资源紧张以及交通事故等问题日益严重。由于传统的机动车辆无法避免此类交通问题的持续膨胀,随着车联网、智能驾驶等智能汽车技术的兴起,人们将这些传统汽车无法解决的问题寄予在智能驾驶等技术上。美国电气和电子工程师协会(IEEE)预测,到2040年底道路上行驶的车辆,配备自动驾驶技术的将会达到75%。本文基于深度强化学习方法,提出一种自动驾驶控制策略的学习方法。通过引入专业驾驶司机的经验数据用于预训练,然后使用经验过滤的Q-学习方法(DQFE)进行强化学习的训练。鉴于这种方法往往需要很长时间的训练,本文进而提出一种基于聚类分析进行优化的学习方法(DQFE-C)。首先,通过K-means聚类方法对试验中获得的状态-动作的信息数据进行处理,然后基于预设的分类模型,从每一类别中分别采样样本数据进行网络模型的训练。此处理方法不但可以有效降低样本数据的维度,即试验序列在时间轴上的数据维度;并且基于各类别分别采样处理的方法也使样本的独立同分布特性得到更好的保证。实验数据表明,DQFE-C算法可以有效提高网络模型的学习性能,包括学习的效率和获得策略模型的稳定性两方面均得到有效提高。本文提出的DQFE-C方法与神经网络拟和Q-迭代算法相比,在300次实验中降低92%左右的时间消耗,同时在50次测试中,稳定性能提高大约34%。并且以复杂度略高于训练集的测试道路长度为基准,与经验过滤的Q-学习算法相比,采用聚类再采样的方法可以使策略模型的平均行驶距离提高73.4%。

其他文献

探讨传统广播新闻与新媒体广播的融合方向

随着时代的进步和社会的发展,人们的生活水平越来越高,我国社会经济的发展越来越迅猛;同时,我国广播媒体的发展也取得了巨大的成就。当前,传统广播新闻已经处在不断的改革中,

期刊

传统广播新闻新媒体广播融合方向

功能性配料L-茶氨酸的生产应用与法规情况简介

中国人饮茶的历史已有上千年之久,L-茶氨酸(L-Theanine)作为茶叶中特有的游离氨基酸,使人们在饮茶时享受到一种放松、旷怡身心的感觉。此外,茶氨酸还具有抗抑郁、降血压、提

期刊

茶氨酸功能生产应用法规情况

论述水库主坝主要安全隐患及加固措施

在我国的水坝中,坝体的裂缝和漏水是导致堤坝问题的重要原因,这种堤坝的通病主要是质量方面的因素,只有对坝体进行有效的加固和防渗处理,才能够保证堤坝的安全。从这个角度出

期刊

水库基础处理坝坡设计防渗加固

基于深度强化学习的自动驾驶决策仿真

其他学术论文