论文部分内容阅读
出行的交通方式信息在交通规划、交通控制管理方面有着重要的作用和价值。随着大数据技术、机器学习算法的发展以及手机用户规模的逐渐增大,越来越多的研究集中于采用手机数据挖掘的方式获取交通方式信息,其中手机信令数据由于其获取无需用户主动参与以及用户出行活动信息的完整性等优势,利用信令数据挖掘交通方式信息成为交通方式识别领域的热点,由于信令数据质量参差不齐且挖掘难度大,设计更有效率的挖掘算法仍是当前的研究重点及难点。本文首先针对信令数据特性建立数据质量评价体系,在数据预处理的基础上,提取多维度的出行特征,进而研究改进的交通方式人工识别流程和基于主动学习和半监督学习的信令数据挖掘方法,并以周期性定位的信令数据进行实例测试,以期提升交通方式识别效率与准确性,促进手机信令数据挖掘技术的研究,为优化城市未来交通运输方式结构提供科学的决策依据。首先,建立数据质量评价体系并对信令数据进行预处理。从质量特征、采样特征、定位特征三方面建立信令数据质量评价体系,并说明数据预处理方法。以HY市信令数据进行实例应用,对其进行质量评价,清洗“乒乓切换”、“漂移”等数据噪音,采用识别高频点、长时点的组合特征,刻画出行OD。为方便数据分析,将清洗、刻画后的信令数据整理成为只包含一次交通行为的出行链。其次,提取了出行链的出行特征。将出行特征划分为距离、时间、速度、出行者属性等四类,在验证常用的出行距离、平均速度、出行时间可以作为半监督训练特征的基础上,结合数据质量,进一步细分距离类、时间类、速度类的特征,形成多维度特征模型,并对HY市7.6万条出行链进行实例应用。然后,研究了改进的交通方式人工判别流程。在提取出行特征的基础上,改进已有的贝叶斯决策树和基于第三方导航数据方法,研究结合两种方法的交通方式人工识别流程。实例分析结果显示改进的交通方式人工识别流程可以提升人工标注效率35%左右。最后,研究了结合主动学习与Tri-training半监督支持向量机的交通方式识别算法。针对大量未标记数据,运用结合改进的人工判别流程的主动学习方法构造富含信息的已标记样本,运用已标记样本与大量未标记样本训练Tri-training半监督支持向量机。从不同样本集、不同分类方法的角度设计实验案例进行对比分析。结果表明,主动学习构造的富含信息的已标记样本集可以减少半监督学习的迭代次数,Tri-training半监督支持向量机可以通过大量未标记样本提升分类器准确率,结合主动学习与Tri-training半监督支持向量机算法可以有效地判别信令数据出行链的交通方式。