论文部分内容阅读
随着经济的发展,出行方式的不断增多和GPS(Global Positioning System)、传感器等技术的不断进步,海量的轨迹数据变得容易获得。这些数据不仅描述了移动对象的历史轨迹,时间空间信息,而且很好的反映了移动对象的运动特点等内在信息。通过对轨迹数据的分析挖掘,实时地预测可能的出行目的地,一方面在整体交通拥堵预测、道路规划上能够提供辅助性帮助,另一方面也可以根据预测结果,针对个人用户提供拥堵避让等个性化服务。目前的轨迹预测技术多是基于历史轨迹的离线预测,没有很好的体现时间约束。本文对轨迹数据处理和实时数据挖掘的相关工作进行了归纳总结,提出了一种基于大数据流式计算模型的实时序列模式挖掘算法,该算法能够高效准确地挖掘时间敏感的序列模式。在此基础上,将算法应用到目的地预测领域,设计了出行目的地实时预测模型,并在真实数据上进行了验证,证明了算法模型的可行性。本文的创新点主要有以下两部分:第一,提出了一种可计算的基于RTP(Real-Time Pattern)树的实时序列模式挖掘算法。在序列模式挖掘的问题上,传统的算法多是建立在静态数据的基础上进行设计的,对于静态数据,在挖掘的过程中可以对数据进行多次扫描,而实时数据由于其连续海量的特性很难对当前时间的数据进行多次扫描。同时,在传统挖掘的场景中,多是一次性处理所有的序列数据,而实时数据是源源不断地传输的,传统的序列模式挖掘方法无法很好的适应实时问题,主要表现在大量候选集的产生会对内存造成压力,多次扫描降低运算速度,无法达到响应时间的要求。而且针对实时应用场景,我们需要挖掘时间敏感的序列模式,传统的序列模式挖掘方法没有对时间维度的衡量。因此,本文提出了一种基于RTP树的算法,结合Spark流式计算中的时间窗口概念,通过构建RTP树,在树节点中存储时间戳、模式、频次和树的更新、老化机制对时间维度进行了合理的衡量,解决了实时序列模式挖掘中的数据重复扫描和内存压力的问题。针对实时响应的需求,基于GraphX,采用分布式大图有效地对树的节点数据进行大规模的存储和计算。第二,设计实现了出行目的地实时预测模型。传统出行目的地预测的研究都集中在马尔科夫模型的应用改进上,近年随着神经网络的兴起,逐渐涌现相关应用神经网络模型来解决问题的研究。然而马尔科夫模型和神经网络都有他们的局限性,马尔科夫模型受限于状态转移的维度,预测准确率很难得到保证;神经网络具有很强的学习能力,但是计算量较大,难以应对实时的挖掘响应需求。所以,本文运用自己提出的基于RTP树的实时序列模式挖掘算法,并结合轨迹序列处理方法,设计实现了出行目的地实时预测模型。该模型主要分为三步,首先将GPS数据映射到地图网格上,然后通过基于RTP树的实时序列模式挖掘算法得到当前一段时间的序列模式,最后通过将目标轨迹与当前频繁模式进行模式匹配得到可能的预测结果。通过对真实出租车数据进行的多组实验,证明了该模型能够很好的在大数据场景下实时预测可能的出行目的地,并且在预测准确率上优于马尔科夫预测模型。