论文部分内容阅读
随着时代的发展,大数据问题已经普遍存在于各个研究领域中。而聚类技术的应用,则可以根据相似度对数据样本进行归类,从而使得数据的分析工作更为便捷,更好的提取并利用数据中的隐含信息。近年来,高性能聚类技术的研发一直受到外界的高度重视。作为智能电网领域中众多大数据问题之一,高级量测体系(AMI)负荷样本的聚类工作对于系统中的多种实际应用均具有极为重大的意义。然而,由于数据量过大,多种各具特色的经典聚类算法在处理大数据问题时均效率低下,甚至难以实现。同样作为经典聚类算法中的一种,K-means算法由于其简单的原理而具有较快的收敛速度,也因此在大数据问题中被广泛采用。但在传统K-means算法中,聚类结果对在数据集中随机选取的初始中心点十分敏感,且最终仅能够得到单一的局部最优解。上述两问题均会随着数据集规模的扩大而越发严重,并导致不甚理想的聚类效果。为解决上述问题,以改善传统K-means算法在处理大规模数据集时的聚类质量,本文完成了以下工作。首先,为了给传统K-means算法提供更高质量的初始中心点,基于对原始数据集结构的简化,提出了阶层式K-means(Hierarchical K-means,即H-K-means)算法。其次,为了进一步改进H-K-means算法的聚类效果,将原K-means算法聚类问题转化为基于目标函数的非线性有约束优化问题,并利用TRUST-TECH优化技术进行求解,实现H-KTT算法。其中,TRUST-TECH技术是一种高性能非线性优化技术,针对给定的非线性优化问题,它能够有效的摆脱某一局部最优解的束缚,跳出该局部解所在区域,经过逐层搜索,最终得到可行域内其他多个局部最优解(乃至全局最优解),进而显著改善优化结果的质量。本文将H-K-means算法与H-KTT算法应用于来自美国的大规模AMI负荷数据集,以对其效果进行测试。此外,还引入了多种该领域内较为通用的聚类算法进行对比,使所得结果更具有说服力。实际结果表明,H-K-means算法在聚类效果评价指标、实际应用以及计算效率三方面均体现出优异的性能。而此后,H-KTT算法的应用则能够使H-K-means算法聚类结果的质量得到进一步的改进。