基于Spark的空间大数据实时查询分析关键技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:qq3248893
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术和对地观测技术的不断发展,空间数据呈指数级爆炸性增长,地理信息服务日益成为人们日常生活的必须。空间数据管理是地理信息服务的核心,其性能的优劣直接影响地理信息服务的能力。目前基于传统空间数据库的空间数据管理方法由于存储与计算能力有限,制约海量空间数据快速访问和处理能力。而现有的基于云计算HDFS与MapReduce相结合的方法由于磁盘I/O效率较低,无法满足地理信息服务中高并发用户对大规模空间数据的实时处理需求。因此,迫切需要一种新型的空间数据管理方法,来解决在大数据量和高并发用户背景下空间数据管理的瓶颈问题。  本文结合空间数据与地理信息服务的特性,基于Spark分布式内存计算框架,从空间数据存储模型、索引技术、查询算法等三个方面展开研究,探索性解决了基于Spark的海量空间数据实时查询分析的关键技术,取得如下贡献:  (1)提出并设计了基于HBase的空间大数据存储组织模型。根据HBase存储模型与矢量空间数据特点,设计了矢量空间数据HBase存储模型,包括基于Geohash的行健和空间数据与属性数据分开存放的列族。依靠HBase集群分布式处理能力,保证高可靠、高并发、低延迟访问矢量空间数据。实现了基于HBase的矢量空间数据导入算法,实验验证了模型和算法的正确性。  (2)设计并实现了一种分布式空间索引机制。针对空间查询特性与HBase存储模型特点,设计基于Spark并行构建网格索引和GeoHash-Rowkey索引,其中,前者可提高建立网格索引的效率,后者可充分利用HBase行健扫描的高效性,索引更加灵活。通过空间索引机制,有效加速了空间数据随机查询处理性能。  (3)实现了基于Spark分布式内存计算框架的空间查询算法。根据空间查询特性和Spark分布式内存计算模型,设计结合HBase分布式存储、分布式空间索引、Spark分布式内存计算框架的空间区域查询算法和K最近邻空间查询算法。并且设计基于流实时计算框架Spark Streaming的空间查询算法,提供实时在线空间查询服务。实验表明,基于Spark并行空间查询算法可以提供海量空间数据的实时空间查询服务。  (4)设计并实现了基于Spark的海量空间数据实时查询分析原型系统。结合HBase存储模型、GeoHash-Rowkey索引机制、基于Spark的并行空间查询算法设计海量空间数据实时在线服务原型系统,包括数据导入、实时索引与实时空间查询服务,能够有效支撑具有高并发用户和大数据量的交互式空间查询应用。Spark
其他文献
在嵌入式技术领域,为了提高开发效率,芯片制造商、设计方案供应商、软件公司,以及终端产品制造商在软硬件协同设计的基础上,都致力于扩大嵌入式软件平台的使用范围。软件平台不仅
广东省劳动和社会保障厅职业技能鉴定中心在广东省的电子商务从业人员中推行电子商务职业资格证书的制度,目前已经初步建立了电子商务师职业技能鉴定体系。但随着考试人数的日
随着改革开放的深入进行,我国经济得到了前所未有的高速增长。经济总量的迅速提升,使电能消耗也逐年加大。自2003年以来,全国电力供需形势持续出现紧张局面。电能严重短缺的严峻
随着计算机和网络技术的飞速发展,电子政务已成为全球信息技术行业关注的热点。经过十多年的不懈努力,我国的电子政务已经迅速普及。然而,使用电子政务的部门和地区在感受网络带
学位
经过多年的信息化建设,各企事业单位已具备了较完善的OLTP系统,积累了海量的业务数据,但是他们分散、不共享,数据的完整性、一致性缺少很好的保证,且OLTP系统已远远满足不了企业应
学位
在互联网上实现大规模的流媒体数据直播服务,一直是普通网络用户和研究者追求的梦想。客户端/服务器架构需要很高的成本,且缺乏良好的可扩展性;作为最理想解决方案的IP组播因为
计算机视觉中的视频任务都有着很重要的实际应用,对视频数据建模和处理方法的研究是一个十分重要的方向。视频数据的复杂性,使得合理准确地建模视频数据成为非常困难的问题。传
云计算已经是下一代服务计算模式,并且全面进入实践和应用的阶段。由于硬件升级换代,在性能价格比、可扩展性和可用性方面,云计算资源虚拟化和异构集群系统显现出巨大优势,这使得
计算机游戏是计算机科学的一个重要组成部分。计算机游戏的研究领域包括游戏AI引擎、游戏视频引擎和游戏音频引擎等。在当前的计算机游戏研究中,开发人员把主要的精力集中在AI