大规模数据集关联关系并行发现与优化方法研究

来源 :北方工业大学 | 被引量 : 3次 | 上传用户:ningsha
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现如今互联网技术的快速发展,各行业平台所产生的数据量剧增,但原始数据往往杂乱无章,可直接利用性较差,价值密度较低,因而,需要找出数据间的关联关系,挖掘其背后的价值和意义。那么,如何有效地对数据进行关联关系分析,特别是海量数据,就成为数据集成和数据挖掘相关工作的重要研究内容。其中,时空关联关系的快速检测是当前各个研究及应用领域所面临的重要挑战,主要解决途径就是找出不同时空数据对象之间,在时间维度上和空间维度上的某种关联关系,并且还要应对大规模数据的挑战。本论文就是依托于该应用背景,基于海量车牌识别数据,依托于并行计算框架来解决数据关联关系发现的问题。本论文将关联关系的研究成果应用在了套牌车辆检测这一实际场景中,并进行了针对大规模车牌识别数据集的时空关联关系并行发现,以及优化方法的研究工作。本论文在分析和总结已有工作和研究成果的基础上,主要从关联关系的定义、关联关系的判定以及关联关系的并行发现框架这几个方面进行了深入的研究。本论文的主要工作有以下几部分:第一,参考相关时空关联关系已有挖掘工作和概念定义,从数据记录间的时空矛盾关系等关系入手,给出时空矛盾关系的一般定义和算法。还给出时空矛盾关系判定算法。第二,针对目前在车牌识别数据应用领域中,对应时空关联关系检测方法,所具有的成本高及检测效率低等缺点,提出了面向海量数据时空关联的并行检测方法FP-Detector,并提出了基于Linear Partition划分的数据分块策略,有效求解大规模车牌识别数据在并行处理时的负载不均衡问题,显著提升关联关系发现的性能。第三,通过基于真实城市路网车牌识别数据集,设计并实施了相关实验,验证了对本文提出的关联关系并行检测算法的高效性及准确性。第四,将FP-Detector方法应用在了套牌车检测等实际场景中,并基于Hadoop和MapReduce等开源框架实现了套牌车检测的原型系统。
其他文献
车载高压电压互感器是电力机车车载重要的电气设备,对于机车的安全可靠运行起着至关重要的作用。但电力机车通过关节式电分相时,经常出现铁磁谐振过电压,造成车顶保护间隙放电,互
雌激素影响中枢神经系统(CNS )的生理学机制较为复杂。神经递质层面,在某些重要脑区内,如杏仁核、海马和前额叶等,雌激素能影响神经递质的产生与效能;神经元层面,雌激素能促进神经元
后真相时代,"雄辩胜于事实"成为社交网络传播的显著特征。新闻事件在网络发酵过程中,真相往往滞后于情感,事件所引发的网民情绪成为事件发酵的"罪魁祸首"。这些情感往往带有
围护结构侧向位移监测是基坑施工过程中的重要工作之一,目前侧向位移监测手段有人工监测和固定测斜仪监测两种方法。人工监测工作量大,测试结果受人工影响较大;固定测斜仪在
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
目的检测口腔扁平苔藓(oral lichen planus,OLP)黏膜及正常口腔黏膜中趋化因子CCL20(CC-chemokine ligand 20,CCL20)及其受体CCR6(CC-chemokine receptor 6,CCR6)的表达,研究
自我效能是用以解释在特殊情景下动机产生的原因,就是个人对自己完成某方面工作能力需要的信念达到预期的结果需要的信念。一些学者研究了自我效能在护理教学中的应用和发展,
随着物联网的飞速发展,对无线通信技术提出了更高的要求,专为低带宽、低功耗、远距离、大量连接的物联网应用而设计的LPWAN(低功耗广域网)应运而生。NB-IoT与LoRa是其中的典型
报纸