论文部分内容阅读
当今时代,信息技术的迅猛发展带来了数据量的飞速增长。这些数据不仅包含数据库中的结构化数据,还含有海量来自于电子邮件、传感器、在线视频等非结构化、互不兼容的、实时的数据。面对极大的实时数据流量,传统计算模型不再能满足需求。如何有效处理海量非结构化实时数据成为焦点,这促进了处理实时数据的分布式流计算框架的蓬勃发展。目前比较典型的分布式流计算框架有IBM的InfoSphere Steams和Yahoo!公司的S4(Distributed Stream Computing Platform)[1]系统。InfoSphere Steams是一款比较成熟的流计算产品,遗憾的是,该产品需要付费并且不开源,不能进行研究和改进。后者是Yahoo!公司开发开源分布式流计算框架,目前高速发展,是Apache旗下的子项目。S4是一个分布式流计算平台,它有良好的可扩展性,具有部分容错能力,能够支持插件并且较为通用。S4系统有诸多优势,但仍然存在节点管理不完善,不能动态增加,删除节点的缺陷,同时S4系统管理员不能直观地使用管理界面对分布式流计算框架中各节点进行全面的管理和监控。本文改进S4在节点管理方面的不足,首先介绍流计算和S4的研究发展情况,重点描述S4在节点管理方面的不足。接下来针对S4在节点管理方面的不足,提出分布式流计算框架节点管理总体需求,包括动态管理节点需求及Web节点管理需求。之后针对总体需求,设计相关方案和架构。针对动态管理节点需求,设计并实现两阶段映射的节点管理方案;针对Web节点管理需求,提出采集层、分析整合层、表示层、用户层的分层架构,并对各层次进行设计与实现。接下来,对分布式流计算框架节点管理各项功能进行全面的功能和性能测试,验证了本文设计实现的分布式流计算框架节点管理在功能和性能方面的优势。最后对本文设计实现的分布式流计算框架节点管理提出建议和下一步研究方向。