基于Spark的时间序列相似性查询算法研究

来源 :安徽工业大学 | 被引量 : 0次 | 上传用户:dragonlumeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着传感器技术的飞速发展,时间序列数据广泛的出现在如商业、气象、医学等应用领域中。对于时间序列的数据挖掘任务也一直是学术界和工业界的研究热点,而时间序列的相似性查询就是其中一个基础且重要的任务。由于时间序列具有维度高和数据量大的特点,传统的集中式算法已不能很好地满足用户的需求。解决海量的高维时间序列数据的相似性查询问题成为了一个充满挑战的研究问题。近年来,随着分布式集群框架的兴起,用分布式系统处理海量时间序列的数据挖掘任务,成为了研究的主流。所以本文围绕分布式集群框架Spark下的时间序列相似性查询算法展开研究。本文的主要工作如下:(1)对现有的时间序列相似性查询的相关研究进行了全面的总结和分析,将其划分为时间序列的特征表示方法、相似性度量、索引技术。此外对分布式环境下时间序列的现有相关研究进行了介绍和分析。(2)提出了基于符号化表示的时间序列相似性查询分布式算法,该方法首先对时间序列进行基于趋势和均值的符号化特征提取处理,将时间序列表示为包含趋势信息和均值信息的离散化符号。接着在Spark集群中,使用基于特征表示的符号构建相应的索引结构,并通过索引最终高效地实现相似性查询。(3)提出了基于局部敏感哈希(LSH)的时间序列相似性查询分布式算法,该方法利用LSH善于处理高维数据的特点,将高维时间序列视为高维空间中的一个点,从而将原始空间中相似的时间序列以高概率散列到相同的桶中,而不相似的时间序列大概率的哈希到不同的桶中,这样就避免了大量不必要的计算。同时在Spark中建立分布式的索引结构,利用索引而非原始时间序列进行检索,提高检索效率,同时还利用碰撞计数方法,进一步提高检索的速度。
其他文献
2017年国家教育部颁布实施《普通高中历史课程标准》(以下简称《标准》),是新时代我国为顺应世界基础教育发展的主流趋势而实施的重大举措。《标准》提出的高中历史课程核心素养体系对我国当前及今后较长一段时期高中历史教育教学具有重大指导意义。由于《标准》提出的教学要求与高考的应试要求尚不完全一致,我国高中历史教师整体水平距培育历史学科核心素养的要求还存在一定差距,“历史解释”方法在高中历史教学中的实施效
在全面深入建设小康社会的过程中,习近平非常重视解决事关社会公平正义的突出问题,致力于维护和促进国民经济与社会发展基本政治经济制度的公平公正,促进人民基本权利的公平分享。他以马克思主义基本原理作为指导,将马克思、列宁等经典作家的分配正义思想与中国特色社会主义实践相结合,发展了具有中国特色的当代社会主义政治经济学理论,丰富了马克思主义分配正义理论。习近平对分配正义的重要论述有其产生的特定时代背景和理论
在各种活性氧中,过氧化氢(H_2O_2)是一种较为常见的活性氧小分子,其在人体广泛的生理过程和病理过程中都起着至关重要的作用。H_2O_2在细胞内产生的错误调节可引起一系列器官功能障碍,过量的H_2O_2可能对核酸产生氧化损伤,改变蛋白质结构,从而导致人体衰老及多种疾病,如神经退行性疾病、糖尿病以及癌症等。次氯酸/次氯酸根(HOCl/Cl O-)作为另一类活性氧物种在先天免疫系统中具有十分重要的作
强流脉冲电子束作为一种高效、清洁的高密度能量源,在材料表面改性领域得到广泛研究。石墨阴极作为电子束源的重要组成部分,其性能影响了电子束的均匀性和能量大小,也关系到
由于传统燃油汽车加剧了环境污染与能源紧缺等问题,电动汽车因其使用清洁能源的优点,逐渐挤入传统燃油汽车的市场,得到了广泛的应用。但随之而来的问题是原电网会因大规模的
目前我国老龄人数已达到全国人口总数的22.31%,每十个人就有两到三个老年人,加之,大部分青年人花费了更多时间投身工作,创造生活成本而无暇照顾老人,居家养老模式日益受到挑战,社区养老模式由此应运而生。同时,我国正处于一个文化大发展大繁荣的时代,党的十九大报告就已经明确提出了“办好继续教育,加快建设学习型社会,大力提高国民素质”的新任务、新途径、新要求。而老年人作为社会发展的重要力量对文化知识的需求
重叠是汉语不可或缺的重要语法手段之一,其结构形式多样,是汉语发达的重要标志。汉语重叠词很大程度地增强了语言的生动性,丰富了汉语语言系统,但同时,也为汉语重叠式的翻译活动增大了一定的难度。全文共分为五部分。在引言部分,首先介绍了本文的选题依据、研究意义,该部分也对重叠式以及国内外有关翻译补偿的研究现状进行简要介绍,对翻译补偿理论进行概述,介绍了其定义及分类。同时介绍了研究对象和研究思路及方法,最后对
锡的硫族化合物SnE(E=S、Se、Te)半导体材料具有优异的光、电、热等性质,在光电探测、热电和光伏器件等领域具有广泛的应用。通过降低材料的维度尺寸,改变其形貌微结构,可以调控其物化性质,提升其应用性能。因此,半导体纳米材料的制备与结构的调控研究具有重要意义。本论文采用溶剂热法和真空热蒸发法,制备了SnS1-xSex三元合金纳米带、SnSe/Bi2Se3纳米片异质结以及Bi掺杂的SnTe高取向纳
随着科技的进一步发展,人们对能源的安全及回收问题越发重视。风能作为一种可再生的清洁能源,利用风力发电机等工程技术将风的动能转化为电能和机械能等能量,因此风机是全球各国的国家重要发展对象。行星齿轮作为风力发电机组的核心部件,具有可以进行转速低、承载能力强等特点。本文建立了行星齿轮传动系统动的力学模型,并通过对该力学模型参数的修改带入类似断齿等常见故障,通过对比分析了该传动系统的动态特性,并得出了故障
高超声速飞行器具有飞行速度极高,飞行包络大的特点,使得其在航空航天技术领域中引起越来越多的关注。由于高超声速飞行器具有飞行环境复杂、发动机机身耦合作用强以及试验数