H-KTT聚类算法及其在大规模AMI数据分析中的应用

来源 :天津大学 | 被引量 : 0次 | 上传用户:wangyuantianjin99se
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着时代的发展,大数据问题已经普遍存在于各个研究领域中。而聚类技术的应用,则可以根据相似度对数据样本进行归类,从而使得数据的分析工作更为便捷,更好的提取并利用数据中的隐含信息。近年来,高性能聚类技术的研发一直受到外界的高度重视。作为智能电网领域中众多大数据问题之一,高级量测体系(AMI)负荷样本的聚类工作对于系统中的多种实际应用均具有极为重大的意义。然而,由于数据量过大,多种各具特色的经典聚类算法在处理大数据问题时均效率低下,甚至难以实现。同样作为经典聚类算法中的一种,K-means算法由于其简单的原理而具有较快的收敛速度,也因此在大数据问题中被广泛采用。但在传统K-means算法中,聚类结果对在数据集中随机选取的初始中心点十分敏感,且最终仅能够得到单一的局部最优解。上述两问题均会随着数据集规模的扩大而越发严重,并导致不甚理想的聚类效果。为解决上述问题,以改善传统K-means算法在处理大规模数据集时的聚类质量,本文完成了以下工作。首先,为了给传统K-means算法提供更高质量的初始中心点,基于对原始数据集结构的简化,提出了阶层式K-means(Hierarchical K-means,即H-K-means)算法。其次,为了进一步改进H-K-means算法的聚类效果,将原K-means算法聚类问题转化为基于目标函数的非线性有约束优化问题,并利用TRUST-TECH优化技术进行求解,实现H-KTT算法。其中,TRUST-TECH技术是一种高性能非线性优化技术,针对给定的非线性优化问题,它能够有效的摆脱某一局部最优解的束缚,跳出该局部解所在区域,经过逐层搜索,最终得到可行域内其他多个局部最优解(乃至全局最优解),进而显著改善优化结果的质量。本文将H-K-means算法与H-KTT算法应用于来自美国的大规模AMI负荷数据集,以对其效果进行测试。此外,还引入了多种该领域内较为通用的聚类算法进行对比,使所得结果更具有说服力。实际结果表明,H-K-means算法在聚类效果评价指标、实际应用以及计算效率三方面均体现出优异的性能。而此后,H-KTT算法的应用则能够使H-K-means算法聚类结果的质量得到进一步的改进。
其他文献
直线电机是一种特殊类型的电机,可以直接进行电能向机械能的转换,由于其结构简单,效率高被越来越多的应用在数控机床、半导体加工等领域中。直线电机的定位力波动相当于传统旋转电机的转矩波动,是影响其工作性能的一个主要因素。因此对它的研究是直线电机研究的主要课题之一。等效磁路法和有限元法这两种方法是研究永磁直线电机推力的常见方法,然而它们存在各自的缺陷。对于有限法来讲,当直线电机的运动状态发生改变的时,需要
完全弛豫且具有低位错密度的SiGe/Si虚层衬底技术近年来在微电子,激光,微波等领域应用的非常广泛,对其性能的研究具有重大的理论和现实意义。分子设计和分子模拟是近来随着材料
拱坝是一种重要的坝型,以其结构合理和体形优美而著称。拱坝是所有挡水建筑物中最为安全的一种。由于拱坝优良的力学性能和造价的经济性,拱坝的应用越来越广泛。当前,随着水利水
运动控制器在工业、国防和人们的生活中,有着广泛的应用。然而目前常用的运动控制器结构存在很多缺陷,如体积过大,不支持通信,硬件一旦固定就无法改变等。从而导致运动控制器之间相互孤立,系统升级过程中浪费大量资源。为了解决这些问题,本文对运动控制器结构进行了研究。本文首先分析了目前运动控制器常用的体系结构,指出了它们在体积、通信、灵活性方面的不足。针对运动控制器性能可伸缩性和功能可扩展性等方面的要求,提出