论文部分内容阅读
5G时代的到来伴随着各种终端应用的广泛使用,网络传输介质中时刻充斥着海量的高速传输的数据,这些数据中蕴藏着大量有价值的知识。而聚类分析作为数据挖掘和知识发现的一种重要方法和手段,面向数据流的动态聚类研究更是成为当下的研究热点。怎样对热电生产监测数据流进行实时聚类分析并对生产工况进行监测是一个具有实际意义的研究内容。要实现该研究内容的目标,需要处理好数据流环境中的概念迁移、异常检测、实时分析和参数自适应等问题,而参数自适应贯穿整个动态聚类分析过程,一个算法的动态参数自适应调整能力很大程度上决定了其处理流式数据的性能优劣。目前,将聚类分析方法直接应用于工业生产流程监测的研究与尝试还较少,大多对采集的历史数据进行建模训练的有监督学习,再对新产生的数据进行匹配监测和异常捕获。然而真实环境中很多未标注因素会对模型的自适应能力带来挑战,如设备老化、供热量调整、自然环境(气温)突变等,每年的工况,甚至每年同季度、同时段的工况都会有所不同。利用数据自身信息进行知识发现,针对数据变化趋势进行适应性调整,准确挖掘深层知识是面向数据流环境的聚类方法要做的工作。我们的工作重点就是怎么能够让算法更好的实时的适应数据流环境进行及时、准确的参数调整,或者扩大参数可取范围,降低参数敏感度,在理论创新的基础上提高算法的实际应用能力和可用性。本文的主要贡献主要有以下三个方面:(1)为了降低聚类分析的时间和空间复杂度,提高算法精度和效率,本文提出一种基于降维窗口的主成分分析方法(DRWPCA)来对高维数据进行主要特征选择,即降维。我们设计了一种根据数据本身维度信息进行宽度自适应调整的降维窗口对特征分析的范围进行限制,减少人为干预;另外,通过细化降维过程、迭代分析主要特征,并保留数据直接信息,便于后续处理结果的分析。(2)通过对热电工业生产数据的变化和分布特点进行分析,基于密度的聚类算法能够更好地适应其变化趋势和分布情况,静态聚类方法是面向数据流的动态聚类算法的基础,我们先基于某一特定问题对静态聚类算法进行改进和创新。我们先后提出了FKDC、DC-SKCG、KNNGPC等多个静态聚类算法。FKDC的基本思想是通过将整体簇划分为多个子簇,根据疑似离群点的局部空间信息来对子簇进行自动融合,从而实现基于划分的方法可以发现无规则形状簇的目的,且初始化参数范围较广。另外,疑似离群点的概念细化了非核心成员样本的角色,通过在聚类过程中对疑似离群点的分析,提高聚类性能。DC-SKCG则是基于每个点的局部密度给每个样本赋一个自适应调整的截断半径,以多于真实簇个数的高密度点为起点进行密度聚类,尽可能避免簇间冲突,如果簇间仍然产生冲突,我们又设计了一种基于共享K最近邻相似度的冲突博弈回寻策略,以高密度中心为核心的核心区域进行成员点争夺,从而提高聚类算法精度,经试验证明算法对K值敏感度较低。而KNNGPC综合了前两者的优点并进一步创新,提出KNN引力中心概念来发现局部簇心,并将其作为聚类起点进行基于共享KNN相似度的扩展聚类,在聚类过程中可以自动融合冗余簇,无需人为设置簇的个数且能够发现任意形状簇,具有良好的参数自适应能力和普适性。(3)在我们提出的静态聚类算法的基础上进行改进,提出面向数据流环境的版本。首先,对面向数据流的聚类算法进行理论研究,提出FKDStream算法,设计了一种基于KNN密度的,综合考虑时间、空间与数据量之间关系的加权方法来减弱久远的或者非核心点的权重,降低他们对当前聚类的影响。提出宽度自适应调整的贪婪采样窗口来提高算法实时性和降低数据丢失率;疑似离群点作为一个新概念被提出,通过对其筛选提高算法精度。另外,在KNNGPC算法基础上,提出了面向数据流的KNN-GPStream,通过宽度自适应的滑动-衰减窗口模型来划定待分析数据区间以自适应调整数据量,从而保证算法的时效性;为了满足实际工程性需求,设计了一种层次快照模型,用以保存足够的聚类快照信息而不需要占用太多空间。综上,我们的工作是一个从预处理到数据流聚类算法设计的成体系的完整研究过程,根据各子模块的需要和问题提出解决方案。在参数自适应方面,我们主要解决了降维窗口在降维中宽度自适应调整的问题,基于密度的聚类算法中截断半径的自适应调整问题,自动确定簇的个数以及适应任意数据环境,降低算法对参数的敏感度以及在数据流环境中面对概念迁移等情况的参数自适应调整等问题,以提高在数据流环境中聚类算法的准确性、时效性和普适性。通过相关实验也证明了本文中我们提出的算法是有效并且可以解决实际问题的。对比实验结果也证明我们的算法在各方面指标是具有优势的。