论文部分内容阅读
随着国内经济的高速发展,各行各业对于电力资源的需求也越来越强。目前,智能电网系统已经成为电力企业的“中枢神经”,支撑着新一代电力生产和管理的发展。用电信息也实现了自动化采集,不仅使得电网系统得以高速运转,同时对于信息采集的密度以及覆盖范围也有了很大提升。智能电网的迅速发展,为电网企业带来了大量的客户用电业务数据,而传统的关系型数据库已经难以有效处理海量数据。因此,分布式文件系统成为电网企业数据技术的未来发展方向之一。另一方面,单纯的业务数据存储无利于电网企业的发展,因而通过数据挖掘将海量的数据转化为可用的知识或经济收益也是目前电网企业亟待解决的问题。电力大客户是指用电需求较大的客户,一般为工业用户,正常情况下,电力大客户是供电企业的主要经济收益来源。对电力大客户进行分类有助于企业对大客户的分类管理和对大客户的用电行为进行分析,并以大客户为中心,提供个性化的供电服务,差异化的营销,提升服务质量等。在当前电网数据技术向分布式文件系统发展的背景下,本文针对用电数据的时序性特点,采用时间序列分类算法对数据进行分类研究,并在Hadoop分布式数据处理集群上实现各算法的数据分类过程。本文研究基于Hadoop平台对电力大客户的用电时序数据分类,主要工作内容为以下几点:一、根据算法原理,将具有代表性或较为新颖的时间序列分类算法分为基于模型、基于距离和基于序列特征三类,分别在文中进行原理分析;二、在分类实验中,搭建Hadoop集群,设计并实现了基于模型、基于距离和基于序列特征三类算法的Map Reduce化方案;三、通过实验,分析了Hadoop集群对算法速度的提升效果,讨论分析了各分类算法对电力大客户用电时序数据分类的速度和准确率表现。本文的研究中涉及到数据挖掘领域中的时间序列分类算法和Hadoop分布式数据处理平台。因此,该研究课题不仅提供了一种数据挖掘在电网企业中的应用点,同时分布式数据处理研究也符合电网数据技术未来的发展方向。