基于强化学习的驾驶员车辆路径选择过程研究

来源 :重庆交通大学 | 被引量 : 0次 | 上传用户:lightning11111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来智能交通被广泛应用于解决交通拥堵问题,但是发布的诱导信息是否有效、是否会产生交通震荡,取决驾驶员对诱导信息的反应。驾驶员在面临诱导信息进行路径选择时,可以选择接受诱导信息,也可以选择拒绝接受诱导信息,这是一个博弈的过程,又因对驾驶员路径选择影响最大的因素是上一次策略选择收益,收益较好时,策略被强化,否则被弱化,这符合强化学习理论的思想,且驾驶员会存在预期收益,策略概率选择大小取决于预期收益与实际收益的差值,另外,现实中驾驶员对其他驾驶员的策略选择信念无法取得,因此本文在博弈论的基础上,应用强化学习理论思想,以驾驶员预期收益与实际收益的差值更新策略的概率,研究驾驶员在面临诱导信息时的路径选择过程,旨在为交通管理者发布诱导信息提供依据。本文首先研究基于强化学习理论的驾驶员路径策略选择过程。建立了基于强化学习理论的交通诱导模型,详细论述了模型的博弈过程,并通过仿真基于无诱导信息条件下、基于强化学习诱导信息条件下、基于信念学习诱导信息条件下驾驶员路径选择过程,验证诱导信息发布的有效性。然后基于建立的强化学习理论交通诱导模型,进一步研究了路网环境变化时对驾驶员路径策略选择过程产生的影响。主要通过改变路网流量、初始接受诱导比例两个因素,分析其对驾驶员路径选择过程产生的影响,当路网流量变化时,管理者应将诱导信息的可信度提高至50%~60%,可以使诱导信息被充分利用,且不会导致拥堵漂移,能够有效缓解交通拥堵;当改变初始接受诱导比例时,当路网流量占通行能力的85%及以上时发布诱导信息,即当路网开始拥堵时,诱导信息能快速发挥作用,缓解道路上交通拥堵,提高道路通行能力。最后研究了强化学习理论交通诱导模型自身参数变化对驾驶员车辆路径选择过程产生的影响。主要研究了期望支付调整速度、初始接受概率两个参数变化时,对驾驶员路径选择过程产生的影响。当期望支付调整速度改变时,期望支付调整速度取值较小时,模型的使用效果更好,诱导效果更加明显,道路通行能力能够得到快速提升;当初始接受比例改变时,局中人对各个策略的初始接受概率相等时模型的诱导效果相较于对某一个策略有喜好时较差,即驾驶员对某一策略有偏好时,模型的使用效果更好,也符合现实生活驾驶员不是一层不变的,而是会分成各种类型。
其他文献
小组合作学习就是以合作学习小组为基本形式,系统利用教学中动态因素之间的互动,促进学生的学习,以团体的成绩为评价标准,共同达成教学目标的教学活动。小组合作学习是目前普
目的:观察中西医结合治疗慢性咳嗽临床疗效。方法:60例随机分为两组各30例。两组均给予西医常规治疗,研究组加用半夏厚朴汤治疗。结果:研究组日间、夜间咳嗽症状积分均低于对
冰雹天气的出现对于地面的影响比较大,是比较恶劣的天气类型。通过对冰雹特征的分析发现,冰雹本身具有表面形状不规则的特点,而且自身的硬度较大。冰雹掉落后,会导致地面的建
为确保寄递渠道的安全,杜绝违法寄递行为的发生,建立有效的追溯机制,从2015年11月1日起,快递实名制在我国全面开启。然而,该项政策实施至今已经两年多,落实情况仍十分不理想,
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
近年来中泰经贸合作发展并不均衡。泰国对华出口以初级产品为主,出口额下降,贸易逆差严重,中国对泰国出口以制造品为主,且竞争性制造品居多。与此同时,泰国对华投资有所下降,
随着人们对美好生活的向往,追求优质食品的意识日益增强,山区清洁无污染的山泉水生态养殖以投喂青饲料为主的草鱼越来越受到人们的青睐,每千克鱼的价格比投喂精饲料草鱼的价
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
2018年6月起发生的P2P网络借贷行业大规模平台倒闭事件引发社会各界关注,识别P2P网络借贷平台的信用风险成为热点问题。构建P2P平台信用风险指标体系,选取当时具有代表性的正