基于序列模式挖掘的出行目的地实时预测研究

来源 :中南财经政法大学 | 被引量 : 0次 | 上传用户:lingxiaodong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着经济的发展,出行方式的不断增多和GPS(Global Positioning System)、传感器等技术的不断进步,海量的轨迹数据变得容易获得。这些数据不仅描述了移动对象的历史轨迹,时间空间信息,而且很好的反映了移动对象的运动特点等内在信息。通过对轨迹数据的分析挖掘,实时地预测可能的出行目的地,一方面在整体交通拥堵预测、道路规划上能够提供辅助性帮助,另一方面也可以根据预测结果,针对个人用户提供拥堵避让等个性化服务。目前的轨迹预测技术多是基于历史轨迹的离线预测,没有很好的体现时间约束。本文对轨迹数据处理和实时数据挖掘的相关工作进行了归纳总结,提出了一种基于大数据流式计算模型的实时序列模式挖掘算法,该算法能够高效准确地挖掘时间敏感的序列模式。在此基础上,将算法应用到目的地预测领域,设计了出行目的地实时预测模型,并在真实数据上进行了验证,证明了算法模型的可行性。本文的创新点主要有以下两部分:第一,提出了一种可计算的基于RTP(Real-Time Pattern)树的实时序列模式挖掘算法。在序列模式挖掘的问题上,传统的算法多是建立在静态数据的基础上进行设计的,对于静态数据,在挖掘的过程中可以对数据进行多次扫描,而实时数据由于其连续海量的特性很难对当前时间的数据进行多次扫描。同时,在传统挖掘的场景中,多是一次性处理所有的序列数据,而实时数据是源源不断地传输的,传统的序列模式挖掘方法无法很好的适应实时问题,主要表现在大量候选集的产生会对内存造成压力,多次扫描降低运算速度,无法达到响应时间的要求。而且针对实时应用场景,我们需要挖掘时间敏感的序列模式,传统的序列模式挖掘方法没有对时间维度的衡量。因此,本文提出了一种基于RTP树的算法,结合Spark流式计算中的时间窗口概念,通过构建RTP树,在树节点中存储时间戳、模式、频次和树的更新、老化机制对时间维度进行了合理的衡量,解决了实时序列模式挖掘中的数据重复扫描和内存压力的问题。针对实时响应的需求,基于GraphX,采用分布式大图有效地对树的节点数据进行大规模的存储和计算。第二,设计实现了出行目的地实时预测模型。传统出行目的地预测的研究都集中在马尔科夫模型的应用改进上,近年随着神经网络的兴起,逐渐涌现相关应用神经网络模型来解决问题的研究。然而马尔科夫模型和神经网络都有他们的局限性,马尔科夫模型受限于状态转移的维度,预测准确率很难得到保证;神经网络具有很强的学习能力,但是计算量较大,难以应对实时的挖掘响应需求。所以,本文运用自己提出的基于RTP树的实时序列模式挖掘算法,并结合轨迹序列处理方法,设计实现了出行目的地实时预测模型。该模型主要分为三步,首先将GPS数据映射到地图网格上,然后通过基于RTP树的实时序列模式挖掘算法得到当前一段时间的序列模式,最后通过将目标轨迹与当前频繁模式进行模式匹配得到可能的预测结果。通过对真实出租车数据进行的多组实验,证明了该模型能够很好的在大数据场景下实时预测可能的出行目的地,并且在预测准确率上优于马尔科夫预测模型。
其他文献
全光波长转换技术(AWOC)是实现全光通信的关键技术之一。目前,全光波长转换技术都是基于非线性效应产生的,大致包括四类:基于交叉相位调制效应、基于交叉增益调制效应、基于
S航空公司飞行签派中心是国有企业S航空公司下属运行指挥中心的一个核心部门,长期以来,因为企业管理层对于绩效管理的认知不足,导致错误地以绩效考核替代绩效管理,忽视了绩效管理其它环节的工作,而且绩效考核本身也存在以偏概全的情况。在此背景下,本文针对S航空公司飞行签派中心的绩效管理问题进行深入探讨。本文首先分析了当前该国有航空企业在绩效管理方面的现状和问题,从而探讨其产生的根源。本文通过问卷调查的形式,
锂离子电池由于工作电压和能量密度高、自放电小、循环寿命长、容量损失少、无记忆效应和无污染等优点,其普遍被应用于电子设备与电动汽车行业。隔膜作为一种微孔型结构的高
数字心电图机是基于人体生理原理,利用先进的电子技术实现的一种高科技和高精度的医疗仪器设备。数字心电图机的作用是记录和显示心脏跳动时产生的电生理信号。医生通过查看
基于三重态—三重态湮灭(TTA,triplet-triplet-annihilation)的光子上转换是一种将长波长、低能量光子转换为短波长、高能量光子的技术。TTA具有广泛的应用,例如光伏电池,光
开滦荆各庄矿历经近四十年开采,除了工业广场煤柱外煤炭资源几近枯竭。矿井生产最后,在保证地面主要建筑物、井筒及重要设备设施今后继续安全使用的基础上,将解放井筒和工业
非晶与高熵合金作为两种先进材料因其优异的物理、化学和力学性能,近几十年来一直成为材料科学领域研究的热点并不断取得新的进展。其液固结构演变规律及其形成液体的动力学
本文主要以字体为标准,研究(?)组卜辞的分类问题,讨论目前学界各家对于(?)组卜辞的分类认定,分析(?)组卜辞的字体,进而提出关于(?)组卜辞歧见片的再认定意见。本文采用的研究方法有二:一是计算机数字化处理技术,二是区别性字体查询法。本文的研究内容有以下四部分:第一,利用Access数据库首次完成了(?)组卜辞各家认定情况的系统整理;第二,利用计算机技术,首次呈现了迄今为止所有被认定为(?)组的拓
端射天线具有增益高、指向性好、结构简单、馈电方便等优势,常常被应用到卫星通信、移动通信、雷达探测等无线通信领域中。天线作无线通信系统的核心部件,其性能的优劣极大程
在癌症患者的自觉症状中,疼痛的发生率最高,WHO统计:全世界癌症患者伴有疼痛的比例为30~50%,晚期患者为60~90%疼痛给患者带来了极大的痛苦,并加重癌症本身带给患者的精神心理负
会议