论文部分内容阅读
随着全球经济的不断发展和城镇化节奏的持续加速,全球汽车的保有量和道路里程数逐步增加。汽车尾气排放造成的污染、道路不断扩张带来的土地资源紧张以及交通事故等问题日益严重。由于传统的机动车辆无法避免此类交通问题的持续膨胀,随着车联网、智能驾驶等智能汽车技术的兴起,人们将这些传统汽车无法解决的问题寄予在智能驾驶等技术上。美国电气和电子工程师协会(IEEE)预测,到2040年底道路上行驶的车辆,配备自动驾驶技术的将会达到75%。本文基于深度强化学习方法,提出一种自动驾驶控制策略的学习方法。通过引入专业驾驶司机的经验数据用于预训练,然后使用经验过滤的Q-学习方法(DQFE)进行强化学习的训练。鉴于这种方法往往需要很长时间的训练,本文进而提出一种基于聚类分析进行优化的学习方法(DQFE-C)。首先,通过K-means聚类方法对试验中获得的状态-动作的信息数据进行处理,然后基于预设的分类模型,从每一类别中分别采样样本数据进行网络模型的训练。此处理方法不但可以有效降低样本数据的维度,即试验序列在时间轴上的数据维度;并且基于各类别分别采样处理的方法也使样本的独立同分布特性得到更好的保证。实验数据表明,DQFE-C算法可以有效提高网络模型的学习性能,包括学习的效率和获得策略模型的稳定性两方面均得到有效提高。本文提出的DQFE-C方法与神经网络拟和Q-迭代算法相比,在300次实验中降低92%左右的时间消耗,同时在50次测试中,稳定性能提高大约34%。并且以复杂度略高于训练集的测试道路长度为基准,与经验过滤的Q-学习算法相比,采用聚类再采样的方法可以使策略模型的平均行驶距离提高73.4%。