基于深度强化学习的人群运动行为建模方法研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:jiguoqiang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于人口数量不断增多,在一些公众场所内,容易聚集大量人群。当人群流量密集的场所中出现火灾、坍塌等紧急情况时,需要及时的对场所内的人员进行疏散。先前有学者通过组织一定数量的人员在某一特定场所内进行疏散演习,但此类方法需要耗费大量人力物力且不易复现。随着计算机仿真技术的发展,有学者开始在人群疏散领域中使用计算机仿真技术来模拟人群疏散过程,人群疏散仿真方法相比于传统的组织人员进行疏散演习方法可以节省人力和财力,并且具有可复现性、实时性强等优点。因此,使用人群疏散仿真方法来模拟人群在指定场所内的运动情况,可以观察人群运动规律,为疏散方案的制定提供参考,对于在紧急情况下保护人民生命财产安全具有重要意义。传统的人群疏散仿真方法大多是基于人为约束和假设,因此模拟出的人群运动情况与现实不符,存在仿真真实度较低的问题。基于数据驱动的人群疏散方法根据特定场景中提取的行人轨迹模拟人群的运动,但是当场景改变时人群运动不能随之做出调整,模型缺乏灵活性和泛化性。人群疏散过程的一个关键方面是个体决策,在个体层面上确定最优的疏散策略即一条最优路径可以提高疏散效率。由于目前应用在人群疏散领域内的路径规划方法缺乏对出口拥堵、出口选择等运动行为的考虑和设计,所以造成了人群疏散效率低、路径规划容易陷入局部最优等问题。本文基于深度强化学习算法,重点研究如何克服数据驱动方法无法适应场景动态变化以及如何提高人群疏散效率的问题。根据上述人群疏散方法中存在的问题,本文提出了一个基于深度强化学习的人群运动行为建模方法。所取得的创新性研究成果可归纳如下:(1)针对基于数据驱动的人群疏散方法无法适应场景动态变化问题,本文提出了一种基于双层深度强化学习的自适应人群运动建模方法。首先,建立一个分为宏观控制层和微观控制层的分层深度强化学习框架,分别负责处理路径规划和碰撞避免问题。其次,提出一种融合数据驱动和深度强化学习的路径规划方法,该方法将智能体与其周围障碍物的距离添加到状态空间中,使智能体可以实时感知周围环境的变化,提高了智能体对场景的适应性,并且能够模仿视频中的行人运动轨迹。最后,实现了基于多智能体深度确定性策略梯度(Multi-Agent Deep Deterministic Policy Gradient,MADDPG)的局部避免碰撞算法,设计与相对速度障碍(Reciprocal Velocity Obstacles,RVO)算法相结合的奖励函数,提高生成无碰撞速度的计算效率。实验结果表明,该建模方法能够提高模型的灵活性。(2)针对目前应用在人群疏散领域内的路径规划方法缺乏对出口拥堵、出口选择等运动行为的考虑和设计,本文提出了一种基于深度强化学习的人群拥挤行为建模方法。首先,提出了一种基于深度强化学习的避免拥塞路径规划方法,通过分析人群密度和通行系数的关系来判断出口处的拥塞程度,使得出口利用率最大化。其次,提出一种融合视频数据和深度强化学习的避碰算法,从视频数据中提取行人避碰数据,如相对位置、速度等,设计相应奖励函数,使得人群在拥堵情况下避障行为更加真实。最后,与其他疏散仿真方法进行对比,验证所提方法有效性。实验结果表明,该方法能够提高人群疏散效率,缩短人群疏散时间。(3)构建了一个集在线建模、实时导航以及渲染输出功能于一体的三维人群疏散导航系统。该系统基于Windows10操作系统,以Unity2020.3.8为开发环境,仿真过程中分别使用了第三章和第四章所提出的方法。仿真结果表明,所提方法能够提高疏散真实度、增强模型泛化性并且提高疏散效率。最后介绍该系统具有导航、在线建模等实用功能,并在安卓平台上使用该系统。
其他文献
<正>中央保密委员会全体会议和全国保密工作会议召开后,各地区各部门高度重视,扎实开展会议精神的学习传达与贯彻落实,积极谋划部署工作任务,在新时代新征程上凝心聚力,奋力开创保密工作高质量发展的新局面。上海中央保密委员会全体会议和全国保密工作会议召开后,市委书记陈吉宁高度重视,立即作出批示,要求全市保密战线深入学习领会习近平总书记关于保密工作的重要指示批示精神,全面贯彻落实党中央决策部署。市委常委、
期刊
初中英语阅读是英语学习过程中的一个重要环节,这个阶段是形成语感和英语背景文化关联的初步阶段和关键阶段。然而,现阶段初中生英语阅读存在词汇量欠缺、缺乏阅读兴趣、缺乏良好的阅读习惯、缺乏阅读技巧和课后阅读量严重缺乏等问题。初中英语教师的阅读教学也存在一些弊病,如,教学目标把握不当;缺乏一定的阅读教学策略与方法;提问层次单薄,思维训练不到位、忽视小组合作等。以上问题不仅阻碍了教师自身的发展,也使学生的英
学位
与空间有关的语言表达是认知语言学的重要研究对象。日语当中指示静态空间关系的语言表达属于“空间相对名词”的词类,与中文的“方位词”相对应。关于日语空间相对名词的研究以“上/下”“前/后”居多,而针对“中”的研究则尚不充分。然而中文母语者在学习日语时对于“中”的误用,却是一个经常被关注的问题,因此有必要探讨避免母语负迁移的策略。空间相对名词“中”属于中日同形词,阐明其背后潜藏的认知机理有助于解决中文母
学位
验证码是一种区分访问者是计算机还是人类的反图灵测试。现如今,很多网站设置验证码以防止恶意攻击。但是,验证码的应用亦有两面性,随着互联网的发展,有部分黑灰产业将平台从线下移至线上,通过线上充值交易等获得不法资金,这一类网站为了躲避网安部门的自动巡检,常常也会设置验证码机制,将充值账号隐藏在验证码之后,从而增加了网络巡检的成本。不过,这一类网站的运营成本较为低廉,所以通常都使用成本较低的文本验证码,这
学位
近年来,我国经济结构的不断调整、金融市场本身的发展限制以及贷款结构开发的不合理性,均是加剧我国银行业违约风险水平不断创新高的重要原因,中国银行业整体的业务规模和贷款总额的发展节奏也从早期的快速逐渐转为缓慢,使商业银行面临控风险、稳绩效的强大压力。目前商业银行的净利息收入仍是其营业收入的主要来源。公司层面而言,商业银行开展信贷业务,信贷结构的合理制订或有效调节与其利息收入和利润程度是紧密联系的;实际
学位
目的 探讨惊恐障碍的治疗方法。方法 将60例惊恐障碍患者随机分为两组,各30例。对照组给予帕罗西汀治疗,研究组加用rTMS治疗。分别在治疗前及治疗后第1、2、4、6周末采用HAMA进行评定,采用TESS评定不良反应。结果 随治疗时间的延长,两组HAMA评分均呈下降趋势,但研究组下降幅度优于对照组;研究组有效率为86.67%,高于对照组的63.33%(χ~2=4.36,P=0.037);两组不良反应
期刊
本报告是笔者基于口译实践而完成,选取的口译材料是2012年诺贝尔文学奖获奖者莫言的获奖感言。2012年12月8日,莫言在位于首都斯德哥尔摩老城的瑞典文学院发表演讲“讲故事的人”。作为诺贝尔文学奖得主,莫言此次讲话备受国内外关注,其言语朴素,表达内容却丰富深刻,极富内涵。作者在口译的过程中发现,要想将讲话内容与含义译为英语,除了语言能力,还需要时刻具备跨文化交际意识,在此基础上寻求口译策略,应对跨文
学位
随着互联网技术的不断发展,机器翻译应运而生,为语言服务行业带来了翻天覆地的变化。机器翻译在文本处理速度和处理量方面具有人工翻译无法比拟的优越性,但在翻译质量和准确度方面,机器翻译仍存在很大的提升和优化空间。而译后编辑可以有效改善机器翻译,是人机交互翻译的重要体现。作为一种行之有效的翻译辅助手段,译后编辑已成为机器翻译系统的有机组成部分。因此,“机器翻译+译后编辑”模式得以推行,既能保证翻译质量,也
学位
智能终端与互联网技术相结合促进了移动社交网络的迅速发展,移动社交逐渐成为日常生活中不可或缺的组成部分。作为人们展示兴趣、技能的平台,移动社交网络成为人们开展社交活动的重要载体。用户匹配在移动社交网络提供的各种服务中发挥着重要作用,精确高效的用户匹配,可以提高社交服务的质量,促进用户之间的交互。在用户匹配中,个人属性配置文件(特征描述和社交习惯)通常作为判断用户关系是否符合特定要求的依据。然而,个人
学位
时间序列是具有时序关系的数据集合,广泛存在于自然界和社会生产生活中。受内、外部因素影响,时间序列通常具有非线性、不确定性的特征。如何从历史数据中学习其潜在的规律,预测数据未来的变化趋势,一直是研究者关注的课题。模糊认知图具有数值推理、可解释性等特点,在时间序列预测中得到广泛应用。本文在模糊认知图的基础上做了进一步的改进来分析和研究时间序列,主要包括以下内容:(1)为了在不确定的环境下对时间序列进行
学位