基于Spark的空间大数据实时查询分析关键技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：qq3248893

【摘要】

：

随着信息技术和对地观测技术的不断发展，空间数据呈指数级爆炸性增长，地理信息服务日益成为人们日常生活的必须。空间数据管理是地理信息服务的核心，其性能的优劣直接影响地理信

【作者】

：

刘羽

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2015年期

【关键词】

：

地理信息系统空间大数据实时查询 Spark计算框架

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息技术和对地观测技术的不断发展，空间数据呈指数级爆炸性增长，地理信息服务日益成为人们日常生活的必须。空间数据管理是地理信息服务的核心，其性能的优劣直接影响地理信息服务的能力。目前基于传统空间数据库的空间数据管理方法由于存储与计算能力有限，制约海量空间数据快速访问和处理能力。而现有的基于云计算HDFS与MapReduce相结合的方法由于磁盘I/O效率较低，无法满足地理信息服务中高并发用户对大规模空间数据的实时处理需求。因此，迫切需要一种新型的空间数据管理方法，来解决在大数据量和高并发用户背景下空间数据管理的瓶颈问题。　　本文结合空间数据与地理信息服务的特性，基于Spark分布式内存计算框架，从空间数据存储模型、索引技术、查询算法等三个方面展开研究，探索性解决了基于Spark的海量空间数据实时查询分析的关键技术，取得如下贡献:　　(1)提出并设计了基于HBase的空间大数据存储组织模型。根据HBase存储模型与矢量空间数据特点，设计了矢量空间数据HBase存储模型，包括基于Geohash的行健和空间数据与属性数据分开存放的列族。依靠HBase集群分布式处理能力，保证高可靠、高并发、低延迟访问矢量空间数据。实现了基于HBase的矢量空间数据导入算法，实验验证了模型和算法的正确性。　　(2)设计并实现了一种分布式空间索引机制。针对空间查询特性与HBase存储模型特点，设计基于Spark并行构建网格索引和GeoHash-Rowkey索引，其中，前者可提高建立网格索引的效率，后者可充分利用HBase行健扫描的高效性，索引更加灵活。通过空间索引机制，有效加速了空间数据随机查询处理性能。　　(3)实现了基于Spark分布式内存计算框架的空间查询算法。根据空间查询特性和Spark分布式内存计算模型，设计结合HBase分布式存储、分布式空间索引、Spark分布式内存计算框架的空间区域查询算法和K最近邻空间查询算法。并且设计基于流实时计算框架Spark Streaming的空间查询算法，提供实时在线空间查询服务。实验表明，基于Spark并行空间查询算法可以提供海量空间数据的实时空间查询服务。　　(4)设计并实现了基于Spark的海量空间数据实时查询分析原型系统。结合HBase存储模型、GeoHash-Rowkey索引机制、基于Spark的并行空间查询算法设计海量空间数据实时在线服务原型系统，包括数据导入、实时索引与实时空间查询服务，能够有效支撑具有高并发用户和大数据量的交互式空间查询应用。Spark

其他文献

VxWorks软件开发平台初步构建

在嵌入式技术领域，为了提高开发效率，芯片制造商、设计方案供应商、软件公司，以及终端产品制造商在软硬件协同设计的基础上，都致力于扩大嵌入式软件平台的使用范围。软件平台不仅

学位

VxWorks软件开发平台嵌入式技术实时操作系统串口通信图形用户界面WindML组件

基于Web的电子商务职业技能鉴定系统的设计与实现

广东省劳动和社会保障厅职业技能鉴定中心在广东省的电子商务从业人员中推行电子商务职业资格证书的制度，目前已经初步建立了电子商务师职业技能鉴定体系。但随着考试人数的日

学位

考试系统考试系统B/S模式B/S模式C/S模式C/S模式系统设计系统设计职业技能鉴定系统职业技能鉴定系统

电动机选择与节能分析模型研究及软件开发

随着改革开放的深入进行，我国经济得到了前所未有的高速增长。经济总量的迅速提升，使电能消耗也逐年加大。自2003年以来，全国电力供需形势持续出现紧张局面。电能严重短缺的严峻

学位

电动机节能节能分析模型生命周期分析软件开发

政府专网中网络安全的分析与应用

随着计算机和网络技术的飞速发展，电子政务已成为全球信息技术行业关注的热点。经过十多年的不懈努力，我国的电子政务已经迅速普及。然而，使用电子政务的部门和地区在感受网络带

学位

电子政务网络安全策略入侵检测

基于低秩表示的轨道交通异常流量检测及可视化

学位

基于领域的数据平台的研究与实践

经过多年的信息化建设，各企事业单位已具备了较完善的OLTP系统，积累了海量的业务数据，但是他们分散、不共享，数据的完整性、一致性缺少很好的保证，且OLTP系统已远远满足不了企业应

学位

数据平台

DOGrid：接收端驱动的P2P流媒体直播系统

在互联网上实现大规模的流媒体数据直播服务，一直是普通网络用户和研究者追求的梦想。客户端/服务器架构需要很高的成本，且缺乏良好的可扩展性；作为最理想解决方案的IP组播因为

学位

流媒体组播接收端驱动拓扑匹配自适应调整滑动窗口P2P

视频数据的时间序列模型及其应用研究

计算机视觉中的视频任务都有着很重要的实际应用，对视频数据建模和处理方法的研究是一个十分重要的方向。视频数据的复杂性，使得合理准确地建模视频数据成为非常困难的问题。传

学位

视频数据时间序列深度学习动态纹理自编码器

异构集群中计算能力敏感的数据重分布

云计算已经是下一代服务计算模式，并且全面进入实践和应用的阶段。由于硬件升级换代，在性能价格比、可扩展性和可用性方面，云计算资源虚拟化和异构集群系统显现出巨大优势，这使得

学位

异构Hadoop集群数据重分布负载平衡资源监控数据本地性云计算

游戏音频引擎的设计与实现

计算机游戏是计算机科学的一个重要组成部分。计算机游戏的研究领域包括游戏AI引擎、游戏视频引擎和游戏音频引擎等。在当前的计算机游戏研究中，开发人员把主要的精力集中在AI

学位

计算机游戏计算机游戏音频引擎音频引擎播放延迟播放延迟资源管理资源管理音频处理音频处理

基于Spark的空间大数据实时查询分析关键技术研究

其他学术论文