论文部分内容阅读
随着全方位海洋立体监测网的建立和“数字海洋”示范效应的扩大,海洋监测数据呈爆炸式增长。面对具有强数据关联性、多学科交叉性、海洋数据获取手段复杂化和种类多样化等特性的海洋监测大数据,如何能够快速、有效地找到所需的数据是海洋研究人员对于监测数据管理的重要需求之一。为了能够更好地组织和管理海洋监测大数据,对于数据的布局策略应运而生,并逐步成为制约数据有效管理和应用的关键问题之一。海洋监测数据的海量性、强关联性及实时更新等特征,给海洋应用(如极地在线考察、怪潮灾害反演、海洋辅助决策)上的数据快速存储和查询造成了巨大的壁垒,带来了如下问题:1)如何对关联紧密的数据进行静态布局,以适应海洋应用高性能计算、高频度查询等需求;2)如何对实时更新、快速增长的海洋数据进行动态布局,从而降低训练时间的开销和用户访问数据的响应时间;3)如何使用合理的副本布局策略,以保证数据的可靠性和安全性,并在一定程度上提高数据的响应速度。为此,本文分别提出了静态数据布局策略、动态数据布局策略和数据副本布局策略,提高了数据的利用率及海洋应用的查询效率。本文以具有强数据关联性、地理区域性、监测实时性等特点的海洋监测大数据作为研究对象,以数据的高效布局作为目标。研究面向海洋数据的布局管理方法,其主要内容包括以下四方面:(1)总结了海洋数据管理的研究现状及关键问题,并通过分析数据布局的结构和功能机理,指出海洋监测数据特性对于数据布局的影响,从而提出了海洋监测数据的定义和符号化表示,为数据布局在海洋数据管理中的应用打好基础。(2)针对海洋监测数据具有海量、异构、强关联的特点,提出了基于关联度的静态布局策略。首先通过分析数据的特性确定了适合海洋监测大数据的云计算存储模式;然后综合考虑监测任务、监测点和监测数据之间的关联,建立海洋监测点间的关联度、监测数据间的关联度和监测数据全局关联度;最后从三个角度对海洋监测数据进行有效地布局。这不仅满足了海洋监测大数据的存储管理要求,同时,将具有较高关联度的数据存放至同一数据中心内,取得了较好的布局效果。(3)针对海洋监测数据动态实时更新、变化大的问题,提出了基于增量学习的动态数据布局策略。根据对海洋监测数据价值的形式化定义,将数据存储区分为活跃区和非活跃区。同时,采用增量学习方法,根据已经获得的知识对数据的增量部分进行学习,而不是对数据增量后的整体数据库进行重新建模,有效地压缩了样本集的大小,并舍弃了无用样本。实验结果表明,数据的布局效果良好。(4)针对系统存储空间利用率和存取的数据保护问题,提出了基于多属性最优化的数据副本布局策略。该策略在动态布局策略的基础上,首先增加了对数据副本热度的定义,然后根据数据的热度值,建立了数据副本的更新方法。同时,分析了存储节点的影响因素,采用多属性最优化方法对影响存储节点的关键属性进行决策分析,找到与各个属性最优的节点进行数据副本布局。实验结果表明,该策略有效地对数据副本进行管理和布局。