论文部分内容阅读
近年来,随着我国高速公路总里程的快速增长,国内高速公路交通安全形势的日益严峻。一方面,交通事故不仅会造成严重的财产损失、给涉事人员带来身体和精神上的创伤;另一方面,也会引发道路交通拥堵,降低整个高速公路路网的通行效率。为减少交通事故造成的拥堵和风险,就要求高速公路交通管理部门对交通事故第一时间做出反应,加快应急救援速度,采取合理、高效的应急救援策略,而准确的事故持续时间预测则是开展这些工作的基础。
传统高速公路交通事故持续时间预测模型依赖于特定的事故特征,受事故数据来源、数量及质量的影响程度较大,并且大量的事故信息以非结构化形式被记录在自由流文本中,未能被完全量化表示;因此,传统的预测模型无论是对数据本身挖掘程度上还是对数据特征提取上都难以满足实际应用需要。考虑到文本数据中包含的丰富事故信息内容,基于自然语言处理等技术,利用事故文本语料中人类语言传递的多维信息,开展对高速公路道路交通事故持续时间预测研究。
(1)首先,构建具有完整时间标签的事故文本数据集,其主要由两部分组成,一是由四川省高速公路事故台账数据,二是利用网络爬虫技术获取“四川高速”微博号中发布的事故微博数据,共计4808条。其次,考虑到事故检测阶段和事故响应阶段的延迟性,根据相关研究和事故处理工作流程,限定本文事故持续时间研究范围包含事故清除阶段和交通恢复阶段两部分。最后,为更大程度满足出行者出行需求,降低离群值的影响,对收集到的事故文本数据进行预处理,从而得到符合研究要求的数据共4334条,并验证了两类来源数据在词向量和标签特征、概率分布等方面均保持相同,可作为后文模型训练集使用;
(2)在对事故文本数据特性分析的基础上,构建事故持续时间预测专属分词词表和停用词词表,并基于Word2Vec模型和TF-IDF模型,建立TI-W2Vec文本向量模型,更好的突出词语间的差异性。其次,考虑到事故持续时间具有连续时序性,故借鉴Fisher聚类算法思想,建立有序文本聚类模型(TW-Fisher),使得同类文本特征之间的差异最小,不同类别文本特征间的差异最大,将有序回归问题转化为有序分类问题,并进行不同分类模型的性能对比分析。结果表明,TW-TextRNN模型准确率最高,且TW-TextRNN模型准确率较TextRNN模型提升了10%;
(3)考虑到网络信息中存在大量未标注的事故文本数据,而通过人工对新样本进行标注则是一项费用高、耗时长的艰巨任务,为了丰富训练集样本量,提高模型的泛化能力,在TW-TextRNN模型基础上,建立基于TW-BiLSTM的网络信息事故持续时间迁移预测模型,通过保持词向量层权重不变,让双向长短期记忆层在少量目标领域有标注数据集上进行微调处理,从而实现迁移学习的目的。结果表明,使用迁移学习策略的TW-BiLSTM模型比未使用迁移学习策略的TW-BiLSTM模型准确率提高了6%。
传统高速公路交通事故持续时间预测模型依赖于特定的事故特征,受事故数据来源、数量及质量的影响程度较大,并且大量的事故信息以非结构化形式被记录在自由流文本中,未能被完全量化表示;因此,传统的预测模型无论是对数据本身挖掘程度上还是对数据特征提取上都难以满足实际应用需要。考虑到文本数据中包含的丰富事故信息内容,基于自然语言处理等技术,利用事故文本语料中人类语言传递的多维信息,开展对高速公路道路交通事故持续时间预测研究。
(1)首先,构建具有完整时间标签的事故文本数据集,其主要由两部分组成,一是由四川省高速公路事故台账数据,二是利用网络爬虫技术获取“四川高速”微博号中发布的事故微博数据,共计4808条。其次,考虑到事故检测阶段和事故响应阶段的延迟性,根据相关研究和事故处理工作流程,限定本文事故持续时间研究范围包含事故清除阶段和交通恢复阶段两部分。最后,为更大程度满足出行者出行需求,降低离群值的影响,对收集到的事故文本数据进行预处理,从而得到符合研究要求的数据共4334条,并验证了两类来源数据在词向量和标签特征、概率分布等方面均保持相同,可作为后文模型训练集使用;
(2)在对事故文本数据特性分析的基础上,构建事故持续时间预测专属分词词表和停用词词表,并基于Word2Vec模型和TF-IDF模型,建立TI-W2Vec文本向量模型,更好的突出词语间的差异性。其次,考虑到事故持续时间具有连续时序性,故借鉴Fisher聚类算法思想,建立有序文本聚类模型(TW-Fisher),使得同类文本特征之间的差异最小,不同类别文本特征间的差异最大,将有序回归问题转化为有序分类问题,并进行不同分类模型的性能对比分析。结果表明,TW-TextRNN模型准确率最高,且TW-TextRNN模型准确率较TextRNN模型提升了10%;
(3)考虑到网络信息中存在大量未标注的事故文本数据,而通过人工对新样本进行标注则是一项费用高、耗时长的艰巨任务,为了丰富训练集样本量,提高模型的泛化能力,在TW-TextRNN模型基础上,建立基于TW-BiLSTM的网络信息事故持续时间迁移预测模型,通过保持词向量层权重不变,让双向长短期记忆层在少量目标领域有标注数据集上进行微调处理,从而实现迁移学习的目的。结果表明,使用迁移学习策略的TW-BiLSTM模型比未使用迁移学习策略的TW-BiLSTM模型准确率提高了6%。