论文部分内容阅读
在大数据时代,各项业务服务为保证健康状况或挖掘深层价值,普遍存在基于相关日志进行分析的场景需求。面对源源不断产生且呈指数增长的海量日志数据,传统的数据处理和分析技术在计算和查询业务上往往无法满足特定性能要求。分布式并行化的大数据技术可充分发挥多机多核的硬件资源,在日志业务分析领域逐渐受到了学术界和工业界的青睐。首先,日志数据通常具有时序性和流式特点,且具有确定的属性意义,其次,在业务流程构建中,业务处理的阶段性和关联性在底层可体现任务流及数据流的对应关系,此外,大数据工程的敏捷开发和生产部署,一直是组织或企业最关心的问题和难题之一。为了对海量日志数据进行高效处理和管理,并快速构建具体业务应用,出于性能和和通用性的考虑,本文基于分布式计算框架Spark设计并实现了面向日志大数据分析的业务服务系统,并着重从如下工作进行研究和设计:(1)根据日志产生、接入和处理特点,对系统架构进行分层构建,并设计了低耦合和支持分布式服务的DSService、SparkServer和MonitorServer三大功能模块。系统通过架构各层、各功能模块及服务间通信和调用方式的设计,支持任务流或工作流管理和调度,并对各服务提供容错性、高效性和扩展性的保障。(2)基于Spark DataSet对大数据批处理和流式处理应用方式进行抽象和统一化设计,形成了数据流和任务流相互对照的业务工作流系统,并实现了支持数据管道建模的统一开发和应用模式。(3)通过提供集成SDK,屏蔽底层复杂操作,并支持服务注册与发现、容灾处理和系统监控,结合管理平台,为用户提供数据接入、开发、部署和可视化的业务应用一体化设计流程,促进数据业务应用的快速集成和实现。根据设计的服务系统,本文通过开展数据接入、任务计算和数据查询三类基准测试,表明系统所提供的大数据基本服务具有较好的性能和扩展性,并在该服务平台上设计和实现了两个具体的业务应用,验证了系统在大数据日志分析业务服务上的通用性和实用性。