基于深度强化学习的城市交通灯控制方法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:netwanderchf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
21世纪以来全球人口数都在不断增加,城市人口增加的同时也严重影响到了城市交通的发展,智慧交通的发展和实现也成为了各国急需解决的问题。随着互联网和科技的发展,大数据、云计算、深度强化学习、人工智能等新的科技领域不断成为研究的热点和难点,智慧交通的研究也依据新科技迈向了自适应发展阶段。实现更加高效的城市交通灯控制算法也成为一项具有重要意义和研究价值的工作,本文对现有城市交通灯控制算法存在的不足之处优化,主要内容如下:(1)首先对城市交通灯控制如何建模做了详细说明,然后针对单路口交通灯控制算法中存在存储Q表状态空间爆炸及未考虑历史策略对将来学习的影响等问题做出改进:利用近端策略框架考虑单路口历史动作相位的执行策略对当前时刻选择执行相位造成的影响,通过当前策略与历史策略的比值来优化改变当前路口环境学习率和深度学习采样,为了防止比值出现超域问题采用置信区间的方法,对其比值进行裁剪。通过实验在轻度交通流和重度交通流环境下验证算法的有效性。(2)目前城市交通灯控制算法研究中虽有涉及到多路口协作的建模方案,但对于邻居之间如何具体协作没有反映出来,本文利用基于分布式深度Q网络来实现城市多路口协作控制建模。其中主要考虑了路口自身的历史状态、历史相位动作和该路口一跳邻居路口的上一时刻交通状态、执行相位动作对当前路口的影响,并将路口自身的历史状态-动作和一跳邻居的状态-动作依次通过MLP神经网络、LSTM神经网络、MLP神经网络计算最终当前路口当前时刻需执行的相位动作。通过实验在轻度交通流和重度交通流环境下验证算法的有效性。(3)城市交通灯控制系统属于分布式系统,目前城市交通灯控制算法中针对分布式建立多路口多策略的算法较少,无法高效解决城市相关类型车辆优先行驶问题,本文利用分布式W-Learning实现交通灯分布式多路口多策略协同控制算法。其中主要通过计算路口本地策略和远程策略的Q值(执行相位)和W值(重要性权值)及C值(协作系数)来选择最大W值所对应的Q值执行,其中基于协作图原理在各路口之间并行互传状态、动作、奖励、W等值,减少系统学习时间并了解邻居路口的交通状况。通过实验在轻度交通流和重度交通流环境下验证算法的有效性。
其他文献
<正>去年10月,上井冈山学习参观,欣逢井冈山市总工会在编纂出版《井冈山革命根据地工人运动史》之后,又就"湘赣革命根据地工人运动纪实"编纂成书。能在浩瀚如海、尘封已久的
为了及时准确地处理大柳塔煤矿活鸡兔井12315工作面采空区高温区域,通过同位素测氡、红外线测温仪测温和电热偶测温确定12315采空区高温异常区域,针对高温异常区域采用地面打
如今,社会化媒体已成为突发事件的社会传感器,其上的网络舆情能快速、直接反映突发事件发展态势。突发事件发生后,微博作为重要舆论通道,公众会在其上迅速形成并传播自己的观
吹塑机以及用于配件的保持件;一种易撕型聚丙烯包装膜的制造方法;塑料吹瓶机底模锁定机构。
CF3I是公认的用以代替SF6的新型环保绝缘气体,其在外电场中的具体性质的研究至关重要.利用密度泛函理论(DFT),在B3LYP/DGDZVP基组水平上,从分子结构角度研究了CF3I气体在外电场
介绍了 Superpave技术在江苏省的应用情况 ,从沥青 PG分级、集料特性、级配组成、混合料的体积性质指标以及施工控制等几方面论述了 Superpave技术在江苏省的应用情况及存在
研究背景和意义:支气管哮喘(简称哮喘)以气道非特异性炎症、气道高反应性及气道重塑为主要特征[1-3]。气道重塑被认为是哮喘难治性和不易控制的重要因素。尽管现有以糖皮质激
随着“中国制造2025”的提出,自动化和智能化正在迅速取代原有的工业生产方式。作为柔性自动化生产的主要生产工具,关节型工业机器人的性能指标,尤其是精度指标,直接决定着生
本文利用NCEP/NCAR逐日再分析资料和国家气象中心提供的740站日降水量资料对夏季亚欧中高纬度阻塞高压活动的时空分布及其对中国夏季雨带的维持作用进行了统计研究;对发生在1
当前在一些应用中基于AT89C51的单片机温度控制系统应用比较广,以此为基础,再结合DS18B20温度传感器采集温度数据,软件与硬件结合,最终将温度通过显示器显示出来,将此温度与