论文部分内容阅读
风力发电是近几年大力发展的新可再生能源。是一种有效的降低发电成本,减少环境污染的新能源,能够很好的并入国网使用。保证风电机组的安全、稳定、高效运行最为重要。其中风力发电机组大型设备状态监测成为风电研究领域的重要组成部分。风电机组监测会产生大量的电力数据,这些数据的存储、数据挖掘分析是重要的研究内容。借助流行的Spark大数据处理平台处理电力数据,可以分析风电机组的正常运行状态、故障诊断、故障预测有很大的优点。 本文研究的内容是基于Spark的风电机组监测数据处理分析达到风电机组的故障与预警。本文首先介绍了风电机组监测数据分析的研究背景,及现阶段海量电力量数据处理技术不足的困难,接着介绍了常见的风电机组故障。风电机组状态监测数据具有量大、多源、异构、复杂、增长迅速的电力大数据特点。现有的故障诊断与预警方法在处理大量数据时难以在保证精度情况下进行快速处理。本文以实习的时候研究背景,进行风电监测数据挖掘。本文深入介绍了云计算技术,涉及Hadoop、HDFS、Spark等相关技术和应用,重点介绍了Spark框架的运新模式、分布式数据集(RDD),并给出其优点,为后文的研究提供技术支持优势。 风电数据具有多源、高维等特点。本文首先进行风电数据的清洗,结合随机森林方法进行数据间多属性的相似度量分析。运用主成分分析方法对数据进行降维特征提取和归一化。基于 Spark的改进 K-means算法并行化实现,提取基于并行K-means聚类的风电机组运行状态曲线,对风电机组状态运行参数曲线的噪声数据检测和处理,体现Spark风电数据预处理的优势。最后构造基于PCA和BP算法的故障诊断模型,训练样本构建 BP神经网络模型,最终实现基于 Spark的 PCA和BP神经网络算法的风电故障诊断。分析基于Spark的风电数据处理故障诊断有很好的效果。