基于强化学习的微观尺度行人模拟研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:zwzwzrzr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,公共安全问题已经引起了人们广泛的关注,而行人模拟不仅能够发现或预测潜在的公共安全问题,而且可以对处置公共安全问题所建立的预案进行事先评估。同现实演练相比,其成本更低,应用更灵活,可快速构建不同规模和场景下的行人运动形式。更为重要的是,通过行人模拟算法的改进,能够更为准确地复现人员在各种情况下由于心理状态发生变化而导致的不同移动行为特征。基于上述考虑,行人模拟已经成为近年来的研究热点。然而,传统行人模拟方法通常面临以下几个问题:1)由于方法自身的局限性,行人在运动过程中缺乏前瞻性,使其在复杂场景模拟中经常出现运动震荡的现象;2)行人的运动规则依赖于数学公式的设计,而其设计具有较高的难度且通常无法应用于不同的应用场景;3)行人在运动过程中缺乏自适应性,导致其在面对复杂场景时通常无法合理地处理模拟过程中遇到的困境;4)行人在计算下一时刻最佳速度时需要参考邻居的速度和位置,然而,目前的大多数算法采用被动的信息传递方式,这将导致行人片面地接收信息,并进一步导致模拟过程的低效性。近年来机器学习,特别是深度学习在众多领域取得了引人瞩目的成果,作为机器学习分支之一,强化学习是一种基于马尔科夫决策过程的学习方法,用以优化长期奖励。通过恰当地设计奖励函数,强化学习能够指导智能体在某一状态下采取最优的动作以获取长期最大的奖励。考虑到行人模拟过程同样具有马尔科夫属性,因此可以通过为行人设计相应的奖励函数,结合强化学习方法,使其脱离硬性数学运动规则的限制,从而通过深度学习或自适应学习最佳行为模式。然而,仅依赖强化学习模拟行人运动通常缺乏健壮性且此类方法一般对参数较为敏感,这将为模型训练增加难度。针对上述问题,本文探讨了传统行人模拟与强化学习方法相结合的模拟方式。本文所设计的行人模拟属于疏散模拟的一个分支,即每个行人都有明确的目的地并且渴望尽快到达。为证明该方式的适用性,本文汇总了该方法在不同场景和不同应用目的下的研究,并且对现有强化学习方法与行人模拟的结合同样进行了相对全面的探索。在分析探讨现有研究的基础上,提出了自己在该领域的一些经验总结。具体地,假设在有空间定位和室内建模的支撑下,本文主要研究内容在于利用地理信息系统平台的数据管理方法和空间分析方法,结合强化学习框架,以解决现有传统方法在行人模拟中的困境,并分析和讨论其在行人模拟中的有效性和适用性。根据研究空间的不同,本文进一步将研究分为两个内容:局部空间下的行人模拟和全局空间下的行人模拟。在局部空间中,本文的研究内容在于通过深度强化学习方法,引导行人对未来的困境提前做出预案。为验证强化学习对于行人运动行为的影响,我们设计了两部分,分别为:1)基于策略强化学习的行人运动轨迹平滑研究,该研究旨在研究一种理想的有序状态下行人的最佳运动形式;2)基于值强化学习的多出口疏散模拟研究,这部分研究旨在研究面对不同出口属性和拥挤度环境下行人的疏散路线选择。在全局空间中,本文提出一种面向复杂场景的疏散模拟,其中行人具有自适应的学习能力以应对复杂场景下环境的变化,并且本文赋予行人之间交流机制以减少自适应过程中的运动不稳定性。最后,实验证明,本文所提出方法不仅在设计上更为灵活,而且在结果上同样具有高效性和可扩展性。本文的研究贡献如下:1)提出一种传统局部碰撞方法与强化学习方法相结合的行人模拟方法,其优势在于传统方法可以严格地避免碰撞,而强化学习方法为行人注入了自适应能力,使其能够应对更为复杂的场景,并且依赖于强化学习优化长期奖励的特性,使其有能力解决行人模拟中的行人轨迹震荡问题;2)通过奖励函数模拟行人的行为特征,其将是一种更为简单可行的模拟方式,与基于数学公式设计的传统行人模拟不同,该方式具有更强的扩展能力和泛化能力;3)在奖励函数中加入行人之间的主动交流机制,该设置有利于行人在运动过程中对周围环境有更为全面的认知。
其他文献
与传统的光伏电池完全不同,太阳能整流天线的原理是基于光的波动性,利用光学天线接收太阳辐射,然后再由光频整流器将交流电转化为直流电。由于不会受到材料禁带宽度的限制,太阳能整流天线的转化效率理论上可达85%以上。而且太阳能整流天线所需的材料更容易获取,成本也更低。但是太阳能整流天线作为一个系统,各部件之间关系紧密,影响因素众多,而且由于工作频率很高,在研究方法上又不同于微波整流天线。分析发现,太阳能整
早老素基因1/2(Presenilin 1/2,PSENs)在调节突触功能和认知过程中具有重要作用。临床上,认知障碍患者往往在患病早期就表现出额叶皮层脑功能异常。内侧前额叶皮层(Medial prefrontal cortex,mPFC)参与包括情景记忆在内的多种高级认知功能的调节。但到目前为止,PSENs在情景记忆中的作用及机制尚待探明。因此,本课题利用PSENs条件性双基因敲除小鼠(PSENs
多尺度模拟是当前海洋数值模式的一个重要发展方向。对于一些特定的研究目标,例如研究区域内小尺度过程,或者存在复杂岸线的计算区域,为平衡增大网格分辨率的需要以及模式计算负担的加重,网格局部加密是一种常见的处理方法。非结构网格模式天生适合多尺度模拟,但在算法等方面不及结构网格模式成熟;结构网格模式需要借助网格加密嵌套技术,但仍保持了其原有的特性和优势,即空间上方便构造有限差分格式,且易于应用高阶精度数值
气溶胶是扰动地-气系统辐射平衡的主要成分之一,其中直径小于2.5μm的粒子(PM2.5)主要分布于近地面大气中,对人体健康产生威胁,长期暴露于PM2.5污染环境下有极高的患病风险。中国中-东部区域作为全球气溶胶污染最为严重的区域之一,对其全面域气溶胶污染分布进行高精度的监测十分必要。作为气溶胶的最重要光学参数,气溶胶光学厚度(Aerosol Optical Depth,AOD)是研究大气污染的重要
生物体经过亿万年的自然选择,进化出特定的生物酶以实现高效选择性反应,维持其自身生长,但在反应过程中能源利用效率较低,如传统作物只有1~2%的太阳能-生物质的转化效率。相比之下,无机半导体化学材料具备了更广泛的光吸收范围与更高效的转化能力。将无机半导体材料的高转化效率与微生物的特异选择性能力相结合,构建无机半导体-微生物复合体系,是实现能量高效转化与特定化学物质合成的有效途径。近年来的研究显示无机半
重建精确的高分辨的古太阳活动历史对于理解太阳活动驱动气候变化机制以及认识太阳发电机理论具有非常重要的意义。保存在古地质载体(如树轮、冰芯、湖泊纹泥等)中的大气生成宇宙成因核素记录(如14C、10Be等)被认为是重建古太阳活动变化的可靠指标。前期研究(徐洪阳,2017)表明云南白水台钙华10Be在重建高分辨率太阳活动上具有很大潜力,但尚未建立可靠的利用钙华10Be重建高分辨率太阳活动的方法学。为进一
随着材料科学的发展,多孔材料的开发显得愈加重要。目前制备的多孔材料如共价有机框架(Covalent Organic Frameworks,COFs)和金属有机框架(Metal Organic Frameworks,MOFs)等大多无特定的形貌,不利于材料内部孔结构的利用和介质传输,因此制备具有特定形貌的多孔材料是本论文研究的主要目标。在众多的多孔材料当中,多孔有机聚合物纳米材料因其具有稳定的低密度
癌症是威胁人类健康的主要疾病,而传统的肿瘤治疗方法由于毒副作用等原因在具备一定的治疗效果的同时会严重影响患者的顺应性和生存率。如何创新治疗方法,增强药物的治疗作用,降低毒副反应,一直是生命科学领域重要的课题。光学治疗是一种新兴的肿瘤治疗方法,通过将光敏剂或者光热试剂运输到肿瘤部位并使用外部激光精准照射肿瘤部位以发挥抑瘤作用,具有无创性、高选择性以及低毒副作用的特点,在近年来受到了广泛的关注。但是激
研究证明,间套作作物通过更多的光截获和种间根系互作等直接作用提高其资源(光、肥、水等)利用效率,但地上部改善光环境介导叶片、根系的生长、发育和功能行为进而影响其产量和养分利用效率(地上-地下互作)的机理仍不清楚。禾本科/豆科作物间套作体系在间套作研究中占主导,其中玉米-大豆带状复合种植(玉米-大豆带状套作)体系在我国尤其西南地区广泛种植。西南地区属典型寡日照区域,在弱光照区域带状套作相对单作作物的