论文部分内容阅读
聚类分析是大数据集数据挖掘的重要方法之一。利用可视化技术对数据进行聚类分析处理的技术已经取得了很大的进展,如现在最常见的方法是在一个三层架构中进行抽样/精选,聚类迭代分析,和磁盘标示。由于目前的方法只能是对抽样数据的聚类,就存在着如何把这些聚类结果延伸应用到抽样前大数据集上的问题,然而,这个问题在传统的聚类研究中关注力度不够。这个聚类结果的延伸应用常被称为标示过程。标示不规则形状的聚类,区分聚类边界外层数据项和扩展聚类边界是这个阶段的主要问题。我们讨论了这些问题并且提出了过程可视化的分析方法来解决问题。这些分析技术大量应用到了过程可视化方法,如利用可视化技术进行直观聚类分析和通过交互技术进行聚类分析。
通过研究,论文中提出目前如何有效地对利用抽样数据聚类分析结果大数据集进行标示是一个瓶颈,而结合开源可视化工具VISTA的ClusterMap过程可视化方法可能是解决这个问题的有效方法。这个方案利用ClusterMap聚类表示和标示方法部分地结合了人的因素到ClusterMap表示的聚类的定义和调整过程中去。基于这种聚类表示方法,ClusterMap算法扫描整个大数据集来调整聚类边界扩展问题和标示整个大数据集。实验结果显示相对于传统的基于距离比较的标示算法,ClusterMap能以较小的计算代价良好地保存聚类的质量。
论文主要研究成果在下面三个方面:
1.系统地分析了各种聚类分析过程可视化的方法。
2.创新性地提出了对大数据集如何应用抽样聚类分析结果是对大数据集进行聚类分析要解决的问题。
3.提出ClusterMap算法和VISTA结合的标示过程可视化方法。
设计实现针对大数据集的过程可视化数据挖掘“抽样——可视化聚类——标示聚类”架构,其中实现了标示聚类阶段的可视化聚类分析,完善了当前的聚类分析过程可视化架构。将聚类分析和过程可视化技术结合起来,达到了更好的可视化数据挖掘效果。