论文部分内容阅读
网络与信息处理技术的飞速发展使人类进入了大数据时代,数据量呈指数级增长,各行各业都面临海量数据处理的压力。自治区某物联网系统中的应用日志还停留在手工排查阶段,排查日志的效率低下,缺少集中处理与分析,存储在关系型数据库中的海量数据存在查询耗时过长的问题,此外众多服务器的运行监控问题也亟需解决。 为了实现应用日志和服务器指标的分布式采集与实时分析,提高海量数据分析的效率,本文提出了基于ELK(Elasticsearch、Logstash、Kibana的缩写)技术栈的分布式数据实时处理与分析解决方案,结合实际需求设计并实现了日志分析系统和海量数据检索系统。论文的具体研究内容如下: 1.对大数据处理技术进行了调研,对比了主流大数据处理系统的特点和应用场景,重点研究了分布式搜索引擎的核心技术原理,对目前新兴起的ELK技术栈的系统架构、技术原理和使用方法进行研究和实践。 2.针对系统应用日志缺少集中处理与分析的问题,设计并实现了分布式日志分析系统,完成了应用日志的分布式采集、解析、存储与可视化分析工作,解决了传统日志处理方法中的日志处理效率低下、耗时过长、缺少可视化分析等弊端。 3.针对物联网应用服务器缺少有效的监控问题,实现了服务器指标的分布式采集和实时监控,减少了工程师和运维人员的负担,为服务器的稳定运行提供保障。 4.基于Elasticsearch分布式搜索引擎,设计并实现了海量数据检索系统,弥补了关系型数据库在大规模数据检索时耗时较长和缺少全文检索功能的不足。由于Elasticsearch内置分词器、基于词典的IK分词器和Mmseg分词器都不能满足中文地址分词的需要,采用地址要素级别和规则相结合的中文地址分词方法并实现Elasticsearch中文分词插件。 目前日志分析系统和海量数据检索系统已经完成并投入使用。在日志分析与服务器监控方面,实现了日志的实时采集与分析、服务器指标的实时监控,能够显著减少工程师和运维人员的负担,为服务器的稳定运行提供保障。海量数据检索系统实现了亿级数据的高性能检索,并且具有线性扩展的特性,数据处理效率高,能够有效提高数据分析的效率。