论文部分内容阅读
目的近年来,交通事故严重程度的预测越来越受到研究人员和执法部门的关注。为了拟合分析道路严重程度结果与气象因素之间的关系,提出了许多模型。本研究的目的是使用随机森林与神经网络两种机器学习模型,以调查气象变量对道路交通事故严重性的影响,并比较这两种模型之间的性能差异。方法使用2008年-2017年宿州公安局交警支队的交通事故数据和国家气象信息中心(http://data.cma.cn)的实时气象数据。研究共纳入了7 795起交通事故。本研究尝试使用随机森林模型来拟合气象变量与道路交通事故严重性之间的非线性关系,并比较其与神经网络模型的预测准确性之间的差别。该模型由R软件中的random Forest软件包和Neuronet软件包构建。数据分析时,从数据中分离出75%的训练样本以建立预测模型,其余25%的测试样本用于测试模型。另外,为了理解模型预测的准确性,计算出预测结果并将其与实际结果进行比较。结果从2008年到2017年,宿州的汽车拥有数量从每万人242辆增加到每万人673辆。道路交通事故的发生率从32.42/每万辆汽车下降到13.20/每万辆汽车。十年间,共发生交通事故7 795,其中轻微道路交通事故2 659起,一般道路交通事故2 817起,重大道路交通事故2 264起,特大道路交通事故55起。错误使用车道、逆行、不按规定会车、车距不足以及驾驶证问题是造成道路交通事故的主要原因。据统计,乘坐小微型客车中有5 200人发生道路交通事故,货车中有3 095人发生交通事故。2014年交通事故发生的次数最多。超载使交通事故更有可能导致致命的交通事故,超速驾驶导致致命交通事故的概率约为非超速驾驶事故的2.25倍。我们尝试使用从数据中分离出的75%的训练样本以建立随机森林模型,用来拟合气象变量与交通事故严重性之间的非线性关系,其余25%的测试样本用于模型测试。在随机森林模型中,最佳mtry参数值为5,决策树数为400。风向(Wind direction,WD)、大气压力(Atmospheric pressure,AP)和温度(Temperature)的权重可能比其他变量高。随机森林模型的错误率估计为51.09%,而对于“一般道路交通事故”预测的错误率最低(45.97%)。同样,在神经网络模型中,计算出的错误率是61.01%,对于“轻微道路交通事故”的错误率最低(35.84%)。结论本研究通过流行病学方法,描述了2008-2017年十年间安徽省宿州市交通事故的分布情况。研究了如何使用实时气象因素基于R软件预测道路交通事故的严重性,并为公共卫生和公共安全领域的研究人员提供可供参考的信息。这项研究的结果表明,对于使用实时气象数据预测交通事故的严重性,随机森林模型和神经网络模型都有一定的适用性。未来的研究应进一步包括更全面的变量和不同的城市数据进行比较,并且还应考虑应用其他模型的可能性。