论文部分内容阅读
现如今互联网技术的快速发展,各行业平台所产生的数据量剧增,但原始数据往往杂乱无章,可直接利用性较差,价值密度较低,因而,需要找出数据间的关联关系,挖掘其背后的价值和意义。那么,如何有效地对数据进行关联关系分析,特别是海量数据,就成为数据集成和数据挖掘相关工作的重要研究内容。其中,时空关联关系的快速检测是当前各个研究及应用领域所面临的重要挑战,主要解决途径就是找出不同时空数据对象之间,在时间维度上和空间维度上的某种关联关系,并且还要应对大规模数据的挑战。本论文就是依托于该应用背景,基于海量车牌识别数据,依托于并行计算框架来解决数据关联关系发现的问题。本论文将关联关系的研究成果应用在了套牌车辆检测这一实际场景中,并进行了针对大规模车牌识别数据集的时空关联关系并行发现,以及优化方法的研究工作。本论文在分析和总结已有工作和研究成果的基础上,主要从关联关系的定义、关联关系的判定以及关联关系的并行发现框架这几个方面进行了深入的研究。本论文的主要工作有以下几部分:第一,参考相关时空关联关系已有挖掘工作和概念定义,从数据记录间的时空矛盾关系等关系入手,给出时空矛盾关系的一般定义和算法。还给出时空矛盾关系判定算法。第二,针对目前在车牌识别数据应用领域中,对应时空关联关系检测方法,所具有的成本高及检测效率低等缺点,提出了面向海量数据时空关联的并行检测方法FP-Detector,并提出了基于Linear Partition划分的数据分块策略,有效求解大规模车牌识别数据在并行处理时的负载不均衡问题,显著提升关联关系发现的性能。第三,通过基于真实城市路网车牌识别数据集,设计并实施了相关实验,验证了对本文提出的关联关系并行检测算法的高效性及准确性。第四,将FP-Detector方法应用在了套牌车检测等实际场景中,并基于Hadoop和MapReduce等开源框架实现了套牌车检测的原型系统。