论文部分内容阅读
随着信息技术的不断发展,人们在日常生活中接触到的数据正在以惊人的速度增长,数据已经成为人们生活中的重要组成部分,如何对海量数据进行有效的分析和处理已经成为当下的研究热点。数据可视化技术通过将数据映射为图形、符号和颜色等,能够直观展示数据内部隐含的信息,为人们对数据做进一步分析和处理提供了参考思路,是大数据分析不可或缺的重要手段和工具。可视化方法可以大致分为两类:探索性可视化与解释性可视化。前者的目标是在数据处理初期阶段,借助可视化图表帮助人们在杂乱的数据中发掘数据的内在联系;后者是在视觉呈现阶段,将已知的信息或知识以可视的方式传递给公众。针对海量未经加工的原始数据,提供一个能够对其进行数据转化与可视化分析的平台十分必要。结合这一背景,本文面向普通用户设计并构建了一个支持数据接入、数据管理、数据转换、数据可视化等完整功能的通用探索性数据可视分析系统。本文的主要工作包括以下几点:(1)对数据可视化流程、可视化编码技术、Spark相关技术进行概述,为系统的设计提供理论基础。(2)从需求分析入手,提炼了系统的主要功能。在此基础上对系统划分为项目管理、数据集服务、数据集转换、数据可视化、用户操作五个模块。(3)基于B/S模式对系统进行架构设计,选用Play! Framework2作为Web服务框架。采用MVC的思想将系统划分为展现层、控制层、业务逻辑层、数据访问层、数据层、加速层,并对各层中使用的工具进行简要介绍。考虑到对于海量数据的处理需求,加速层引入分布式计算框架Spark作为数据转换、数据查询的引擎;数据层使用分布式文件系统HDFS存储数据集文件。(4)设计各模块业务流程,实现模块功能。以活动图阐述模块功能的工作流程,以时序图的形式展现模块的运行逻辑与对象关系。(5)对系统进行功能测试以及关键功能的性能分析,针对目前系统中热力地图在大数据集下绘制能力的不足,提出了一个结合GeoHash算法的优化方案,并对方案进行验证分析。优化方案在一定程度上减轻了前端热力地图绘制的压力,并具有良好的绘制效果。