面向高速公路交通事故数据的负载均衡约束下并行FP-Growth挖掘算法研究及应用

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:tonghuasong00000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
因高速公路交通事故导致的死亡人数逐年上升,深入挖掘并分析高速公路交通事故各因素属性间的潜在关联关系并揭示其耦合机理将是探究高速公路交通事故致因的有效手段。然而,现有研究在关联规则挖掘算法的设计和应用层面存在一定局限:普通串行模式的关联规则挖掘算法在挖掘过程通常会产生大量候选项集,需要很大的运行内存来支撑,并不能针对海量交通事故数据进行有效挖掘;与此同时,大多研究只关注支持度和置信度高位关联规则,易忽视潜在的重要交通事故风险因子;此外,普通的并行关联规则挖掘算法普遍存在负载不均衡的问题,进而导致运算效率低。基于此,本研究构建了多维多层事故致因分析体系,在考虑负载均衡的前提下,基于Hadoop平台对既有的FP(Frequent Pattern)-Growth算法进行了并行优化,用以实现针对海量高速公路交通事故数据高效准确的关联规则挖掘计算;进而,基于对高速公路交通事故各影响因素间耦合机理的挖掘结果,深入分析并揭示高速公路交通事故的致因,并为事故风险防控提供指导。本论文的主要研究工作如下:(1)高速公路交通事故数据采集与样本结构设计。对获取的美国华盛顿州的历史事故数据集进行了预处理,得到人(驾驶员)、车辆、道路、环境、时间和事故六个维度的29项影响因素,构建了六维三层的交通事故分析模型,实现了多维数据库的样本搭建。基于数理统计特性从人(驾驶员)、车辆、道路、环境四个维度分析了交通事故分布规律与特征。(2)关联规则挖掘算法与Hadoop平台技术相关理论梳理。结合高速公路交通事故数据集特征,概述了数据挖掘相关技术手段,梳理了关联规则挖掘的概念、评价指标以及相关的经典算法,并进一步介绍了Hadoop平台的基本原理和应用实现途径,为后续研究的展开奠定了理论基础。(3)考虑负载均衡的并行优化FP-Growth算法的设计与实现。面向高速公路交通事故数据,提出了一种考虑负载均衡的并行FP-Growth算法,用以进行多维多层的海量事故数据挖掘:首先对并行FP-Growth算法进行总体架构设计,并结合相关理论完成代码实现工作;进而,针对算法的运行效率问题,应用负载均衡算法优化并行FP-Growth算法中的分组,结果表明优化后的FP-Growth关联规则挖掘算法能够将负载更均匀地分布在Hadoop集群节点上。算法实测结果表明,负载均衡约束条件下的并行FP-Growth算法在处理大数据集时的运行速度更优,该改进算法充分利用了Hadoop集群资源,在保留关联规则挖掘算法原有优势的同时,更加适用于交通事故大数据集的挖掘工作。(4)改进FP-Growth算法在高速公路交通事故致因分析与风险防控中的应用。基于美国华盛顿州的高速公路交通事故数据进行案例研究,通过本文提出的改进FP-Growth算法进行模型构建时,进一步对面向高速公路交通事故数据的关联规则挖掘模型从多维度交互角度进行了改进,即分别从事故维度自相关、单一维度与事故自身维度以及事故多维度交互三个角度进行关联规则挖掘,提取挖掘结果中的高支持度和高置信度的关联规则,并基于挖掘结果进行交通事故耦合机理分析。提取挖掘结果中支持度和置信度高位的关联规则进行解读,进一步分析和解释高速公路交通事故的内在发生机理。进而,分别从高支持度和高置信度、低支持度角度提出了控制高速公路交通事故风险、提高高速公路交通安全水平的对策和建议。
其他文献
首都城市中轴线作为一种文化遗产,具有非常悠久的历史。不论是东方还是西方城市,首都的中轴线空间通常是在一个国家发展规划的指导下形成的,因此其轴线空间反映了这个国家的规划设计理念,中轴线被赋予了历史文化层面的意义和政治经济层面的意义,是一个国家的典型标志。北京和华盛顿中轴线都通过高低起伏、错落有致的手法布置大量空间节点,营造出气势恢宏的空间结构。两个城市的中轴线都经历了形成——发展——破坏——复兴的过
随着5G与物联网的快速发展,边缘计算在现实应用中发挥着越来越重要的作用。边缘节点通过采集大量的用户数据为用户提供了丰富的个性化服务,但同时也存在着泄露用户隐私信息的风险。另外,因为用户对数据有不同的隐私保护需求,在云计算中对多级隐私数据进行有效统计成为一个难题。因此,如何保证用户的个性化隐私需求以及充分利用多级隐私数据进行有效估计成为了云边协同计算场景中的热点问题之一。本文介绍了目前常见的隐私保护
习近平总书记在中央财经委员会第九次会议上,强调要构建以新能源为主体的新型电力系统,这意味着新能源发电将代替传统火力发电成为主要能源。“十三五”期间,我国风电和光伏发电平均每年新增装机容量为0.72亿千瓦左右。随着新能源并网容量不断增加,新能源出力超出系统调节范围,出现新能源弃电现象,并且新能源固有的随机性和波动性也影响电网安全稳定运行。我国新能源装机与负荷呈逆向分布,局部地区新能源消纳条件不足,通
学术论文凝聚着学者们优秀的研究思想。但是在当前海量论文数据、信息过载的情况下,如何充分挖掘论文中隐藏的知识,为论文的检索增加更丰富的语义信息,如何帮助科研人员快速、高效地获取所需的学术论文,是一个巨大的挑战。学术知识图谱结合推荐技术可以解决上述问题。随着谷歌公司将知识图谱用于检索,已出现很多优秀的学术知识图谱,如Ace KG等。但是这些大规模知识图谱多集中于通用和计算机领域。信息系统领域与计算机领
随着“碳达峰,碳中和”目标的提出,发展高比例可再生能源是大势所趋,提高可再生能源发电占比是实现碳中和的途径之一。但可再生能源集中接入会给电力系统带来了新的挑战,可再生能源发电的高比例接入改变了系统的网架结构和运行方式,其自身固有的波动性会显著增加系统中的不确定性,进而影响电力系统静态和动态的安全稳定运行。因此,对电网运行开展量化风险评估显得尤为重要。基于上述背景,本文对考虑风场预测误差的电力系统静
随着互联网与云计算的兴起,大量行业应用的需求推动了云服务市场的快速发展。近些年云服务市场出现了很多功能十分相似,但是服务质量(Quality of Service,QoS)各不相同的云服务。QoS反映了服务的非功能特性,在服务高度同质化的现状下,基于QoS的云服务推荐技术被证明是进行筛选与评价云服务的有效手段。然而,由于云服务数量众多且调用昂贵,对于普通用户而言QoS信息是极度稀疏的,因此预测Qo
近年来,电气设备的状态检修技术快速发展,低压断路器作为输配电系统的重要设备,其工作状态的在线监测具有重要意义。低压断路器的故障有电气故障和机械故障两种类型,本文主要对机械故障进行了模拟,并采集了不同机械故障的振动信号作为原始数据用来对断路器的健康状态进行评估。首先,搭建了实验平台,基于平台的主要硬件边缘计算网关SK3000和压电加速度传感器对故障的振动信号进行采集,借助Pycharm软件对采集的信
雷害一直是威胁电网安全稳定运行的主要因素之一,线路运行时,雷电天气会使得电力系统受到雷电波的侵害,造成绝缘子闪络,雷击断线等事故。据统计,在高压架空输电线路发生的跳闸事故中,雷击占据了60%以上,是引起线路跳闸的重要因素。并且多次雷击会导致断路器断路器在开断过程中再次被击穿,重新引燃断口间的电弧,造成重合闸过程开关二次击穿,线路重合失败,影响电网以及电力系统的安全稳定运行。在电力系统快速发展的背景
车站是设有一定数量配线的分界点,很多时候也是铁路通道运输能力的瓶颈点,车站通过能力不足,会限制整条铁路通道的运输能力。随着“一带一路”战略逐步成熟,中欧班列的数量与日俱增,对通道能力提出了更高的要求,作为通道上的重要节点,每个车站的作业量也迅猛增长,日益增长的列车进路和作业资源调度工作也对现行的车站作业组织发起了挑战。同时在作业组织过程中,产生的调度成本较高、设备损耗较严重等问题也愈发凸显。如何在
城市轨道交通供电系统的电磁暂态仿真是研究供电系统结构稳定性和分析电能质量的有效手段。由于城轨供电系统内部包含大量非线性特性的电力电子设备,如PWM变流器、二极管整流机组等,为了精确模拟供电系统的暂态特性,本文主要对城轨供电系统的电磁暂态建模和电磁暂态算法深入研究,采用了一种基于计算子系统的分段平均模型改进EMTP算法,并开发了可进行系统级城轨供电电磁暂态计算的仿真平台。在城轨供电系统电磁暂态建模方