一种面向流数据的分布式实时存储方法

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:wwwvv9vvcom
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:随着物联网建设的不断发展,以实时传感数据为基础的各类流数据如何及时快速存储已成为当前急需解决的问题。面对连续不断到达的数据流,数据流存储系统必须及时快速将其存储到持久化介质中。针对这一需求,本文提出了一种基于缓存的分布式实时存储方法DRS。DRS方法依据窗口阈值,不间断地从缓存区接收数据,并结合一致性哈希算法将数据分布存储到数据服务器中。实验表明,该分布式存储方法能够实时地将数据存储到持久化介质中。
  关键字:流数据;实时存储;阈值;一致性哈希
  中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2015)19-0005-02
  1引言
  随着物联网建设地不断发展,流数据逐渐成为信息化系统中一类关键数据形式。该类数据如何及时存储已成为当前物联网应用建设中的一个重点。对于实时数据存储系统而言,首先要确保数据及时存储,从而保证数据的实时性。由于数据延迟存储,造成数据处理的非正确性,做出错误的决策。
  以一个物联网环境下的地铁站交通监管数据流存储任务为例,该任务需要监管以下几类数据:1)客流;2)基础设施:扶梯,售票机,防火设备,照明灯等;3)车流:地铁,公交车,出租车等。收集并将该流数据及时存储。在该背景下,设计一种实时存储方法成为必要。
  2交通枢纽实时监管系统
  交通监管系统通过具体设备进行数据监测,存储,处理,对交通事件做出及时具体的措施。该系统采用了分布式的并行架构。其结构如图1所示。
  3DRS方法的基本思想
  车辆实时监管系统分布式架构中需要存储大规模实时数据,而这些数据具有实时性,高速性,因此我们提出的存储方法首要考虑存储的实时性。DRS方法的基本思想如下:
  利用Map Reduce思想设计DRS方法,其方法的设计思路:数据接收阶段对数据做简单的划分工作,数据写入阶段则对已划分数据进行处理。以车流数据为例,当数据接收区监听到数据缓冲区有数据时,数据接收区开始接收数据。接收数据的同时,存储程序生成多个存放数据的队列,根据数据的时间标示,将该条数据放置到对应的队列中。当队列中数据到达到窗口阈值后,数据写入区解析存储该队列中的数据。各个队列中数据对象发送给各个数据写入区,数据写入区解析各个数据对象,将其同时存储到不同数据服务器中,实现高速率数据快速存储。
  窗口阈值采用时间和数量阀值,当发送的数据在规定的时间阀值到达之前已经达到数量阈值,则立即将该部分数据进行解析存储,反之亦然。
  4DRS方法的实现
  4.1数据划分策略
  各个队列中数据对象在内存中采用链表结构存储。根据第三节对DRS方法思想的描述可知,数据接收阶段接收数据的同时要对数据进行划分操作。该方法使用数据的唯一标示划分数据,将该条数据划分到对应的数据队列中。以车流为例描述该划分策略:首先,获取该条数据的时间戳属性值,进行hash直接取余,根据hash值将该条数据放置到对应的队列中。
  当某个队列数据满足某个窗口阈值时,数据接收区会给数据对象加上标示key。每个数据写入区只负责某个队列数据对象的解析存储。
  4.2数据写入
  数据接收区将该段时间内的数据划分后,数据写入区接收分片数据。使用一致性哈希算法将各个分片数据有组织地存储到数据服务器中。每个服务器节点可以对等均匀地分布数据。
  使用一致性哈希计算时,数据写入区将数据写入到哪台数据服务器不仅仅依赖标示key本身而将数据服务器的配置(IP地址或者机器名)也参与hash运算。单个数据服务器节点只需要专注于自身存储工作,从而实现将复杂的分布式架构逻辑与单个服务节点数据处理相分离,最大限度地利用现有的数据库存储技术。
  数据存储流水线可以看做一个由数据监测,数据接收,数据划分,数据写入四个部分组成的串联系统。初始化数据发送速率,队列划分个数和窗口阈值大小,运行存储程序。
  4.3DRS方法实现
  基于上述理论,该DRS方法的实现如下:
  首先,首先给几类流数据设定标示,如给流数据设置属性值,并配置其值,然后通过属性值将数据分类,即拥有相同屙性值的数据为相同类。
  其次,数据处理机对某类数据处理之后,结果集也赋予相同的Attribute value值,将其一起发送到数据缓冲区,最后,存储程序对接收的数据进行存储,流程如下:
  传感设备发送数据或者数据处理机发送数据时,首先将数据发往数据缓冲区;
  (1)数据接收区一直监听数据缓冲区的数据,监测到数据缓冲区中有数据,则开始接收数据并初始化存放数据的队列;
  (2)如果数据缓冲区监测没有此类数据的到来,则一直等待,直到发送端发送数据;
  (3)存储程序根据时间戳属性计算出该条数据发往的对应队列;
  f4)如果某个队列数据到达时间窗口阈值,无论数据量是否满足数据量阈值,数据接收区均给该数据对象配置标示key;
  (5)数据写入区获取该数据对象,根据标示key和数据服务器列表,进行一致性哈希计算,根据hash值将该数据对象存放到对应数据服务器中;
  (6)如果到达数据量窗口阈值,无论时间是否满足时间窗口阈值,数据写入区都将进行取数据对象操作。
  5实验设计及结果
  以物联网下交通枢纽监测系统下车流的存储为例测试验证DRS方法。
  实验准备:2台双核3.0GHz CPU和4GB内存的机器上安装Load Runner9.0,模拟数据流发送端;1台2x4核2.4GHzCPU,16GB内存的机器上安装第三方缓存ActiveMQ中间件,作为缓存服务器;一台2x4核2.4GHz CPU,16GB内存的机器上安装存储程序;6台2x4核2.4GHz CPU,16GB内存1TBRAID5磁盘阵列的机器上安装oracle10g,作为持久化存储。
  实验1:使用DRS方法进行低中速率数据存储测试,查看效果:使用Load Runner服务器模拟数据流发送时,设置不同的数据发送速率,窗口时间阈值设定为2s,数据量阈值设定为2000条。持续运行10小时。
  实验结果:
  图2中,横轴为数据发送速率,即每秒发送的数据量,单位为条/秒,表示速率不断提高,纵轴为延迟时间,单位为小时。由图2得知,将流数据划分并考虑将数据分布存储之后,低中速数据无延迟的存储到数据服务器中,这大大提高了系统性能,保证了数据的完整性,实时性。
  实验2:使用DRS方法进行万级别发送速率的存储测试,查看效果:使用Load Runner服务器模拟数据流发送时,设置不同的数据发送速率与不同的数据量阈值,每秒数据发送量依次设置为1w,2w,3w,4w,5w,6w,7w,8w。数据量阈值分别设为2000条,3000条,5000条,在这三种阈值下分别进行测试。时间阈值设定为2s,持续运行10小时。
  图3中,横轴为数据发送速率,即每秒发送的数据量,单位为条/秒,表示速率不断提高,纵轴为延迟时间,单位为小时。由结果图可知使用DRS方法进行存储也出现延迟现象,延迟时间随着速率不断提高而增长。当数据速率提高到更高级别时,由于数据划分策略缘故延迟现象不会完全消除,这也是本论文下一步将要解决的问题。
  6结论
  本文提出了分布式实时存储方法DRS,该方法基于实时车辆数据进行了一系列实验。结果证明该方法在大部分情况下拥有良好的性能,并应用于某市交通监管实时系统中,成效显著,提高了系统的性能。
  本文下一步工作将针对于阈值的设定,数据的划分与发送数据的速率之间的关系做进一步分析,使该方法更有使用价值。
其他文献
当前,宏观经济形势成为各方关注的热点。总结上半年经济运行情况,研究制定下半年经济政策,成为中央各宏观调控部门的首要工作。从上半年的情况看,我国经济继续保持平稳快速增长态势,经济增长动力强劲,但同时存在增长速度偏快、固定资产投资反弹、贸易顺差增加、流动性偏多、价格上涨压力加大、节能减排形势严峻等突出问题。着眼于解决这六大问题,将是下半年宏观调控政策的重点所在。    增长速度:怎样遏制由“偏快”转向
为了提高无线Mesh网络(WMN)的传输性能,提出基于拥塞规避的路由算法来优化WMN网关负载均衡问题。蚁群算法中选用路径选择概率与信息素浓度呈反比的规则,同时引入增减调整因子进行
采用力学原理,并与太极拳演练技术紧密结合,对太极拳"根”的技术进行分析,探讨了"根”与其它要素的相互关系.
半腱肌替代治疗后十字韧带断裂18例,经过2年8个月的随访,其优良率为94.4%。认为以半腱肌替代治疗后十字韧带取内侧弧形切口具有手术方法简单,容易掌握,组织损伤小,效果满意等优点。
制度保障公平正义政策取向更加民生    党的十六届六中全会审议通过的《中共中央关于构建社会主义和谐社会若干重大问题的决定》,对当前和今后一个时期构建社会主义和谐社会作出全面部署。这次全会,将在中国的发展史上留下浓墨重彩的一笔。实现社会和谐建设美好社会,始终是人类孜孜以求的一个社会理想,也是包括中国共产党在内的马克思主义政策不懈追求的一个理想社会。  胡锦涛说,我们所要建设的社会主义和谐社会,应该是
“清晨,我站在高高的山冈上.看到铁路修到我家乡。一条巨龙翻山越岭.为雪域高原带来吉祥。”一首藏族民歌《天路》唱出了藏族同胞对在世界屋脊青藏高原上修建一条铁路的渴望。20
采用文献资料法、对比分析法等研究方法,对百年武术发展进行简评.认为,科学化是武术发展的内驱动力,健身化是武术发展的生命源泉,竞技化是武术发展的桥梁,市场化是武术发展的
吉林省召开这次旅游产业发展大会.目的就是将旅游产业放到更加重要的战略地位,以科学发展观为指导。动员、组织全社会力量,推动吉林省旅游产业加快发展。
2005年2月24日,这是一个非常重要的日子。就在这一天,《国务院关于鼓励支持和引导个体私营等非公有制经济发展的若干意见》(俗称“非公经济36条”)正式出台。
对30例健康人,30例有自主神经病症状的非胰岛素依赖型糖尿病(NIDDM)患者,30例无自主神经病变症状的NIDDM患者进行心率变异(HRV)的分析测定,结果,有自主神经病变症状的NIDDM患者的时域测量(TD)及频域测量(FD)均显著低于