论文部分内容阅读
聚类分析作为一种非监督学习方法,是机器学习领域中一个重要的研究方向.同时,聚类技术也是数据挖掘中进行数据处理的重要分析工具和方法.目前,针对数值数据的聚类分析研究已经取得了丰硕的成果,然而,在现实世界中,存在大量分类数据.由于分类数据缺乏固有的几何特性不能直接进行数值运算,相应的聚类模型及其算法的设计与数值数据有较大不同,且相对来说也比较复杂.近年来,针对分类数据的聚类分析研究引起了广泛的关注.本文对分类数据聚类分析中的若干问题进行了研究,包括分类数据的初始类中心选择算法、相似性度量以及针对高维、海量、时序分类数据的聚类算法.本文的主要研究成果有:(1)提出了一个针对分类数据的初始类中心选择算法,该算法扩展了传统的最大最小距离算法.通过定义对象的密度给出了第一个类中心的确定方法,克服了最大最小距离算法任意选择一个对象作为第一个类中心的不足;在计算剩余类中心时,不仅考虑了已有类中心和对象之间的距离,而且考虑了对象的密度,克服了孤立点作为初始类中心的可能性.实验结果表明,提出的初始类中心选择算法较随机选择能显著提高k-modes和Fuzzy k-modes算法的聚类精度.(2)基于生物遗传分类学原理,通过粗糙隶属函数定义了对象在给定属性集下的相似性,进一步改进了文[64]提出的相异性度量.改进的相异性度量统一了对象之间以及对象与"mode"之间的相异性度量,并将其应用于k-modes聚类算法中,分析了算法的收敛性和时间复杂度.实验结果表明基于改进相异性度量的k-modes算法能有效地在处理大规模数据,特别是在具有遗传分类特征的数据集上较目前的聚类方法有明显的优势.(3)针对海量分类数据,基于数据抽样技术和粗糙集理论中的粗糙隶属函数,给出了一种未标签对象和抽样数据聚类结果之间的相似性度量,并设计了一种数据标签算法,并分析了算法的时间复杂度.实验结果表明提出的算法较传统的k-modes算法和一些数据标签算法在聚类精度上有一定的提高.(4)针对高维分类数据,基于信息熵给出了一种属性在聚类过程中重要性的度量方法,并提出了一个软子空间聚类算法,同时分析了算法的时间复杂度.实验结果表明提出的算法较k-modes算法和一种带权的混合数据聚类算法不仅在聚类精度上有显著提高,而且可以通过属性权重阈值的设置给出不同类对应的不同属性子集,有助于用户理解和解释聚类结果.(5)提出了时序分类数据的聚类算法,主要包括:①基于粗糙集理论中的粗糙隶属函数和滑动窗口技术,给出了两个概念之间的相似性度量,并提出了概念漂移检测算法;②基于粗糙隶属函数给出了当前滑动窗口中的对象和上一个滑动窗口聚类结果之间的相似性度量,并提出了数据标签算法;③基于两个概念之间的相似性度量,提出了不同时刻聚类结果的可视化算法.同时,分析了提出算法的时间复杂度.实验结果表明,提‘出的算法不仅能够有效地提高聚类精度、检测到漂移的概念,而且能观测到不同时刻聚类结果的演化趋势.(6)基于B/S架构,设计并实现了一个智能数据挖掘实验系统.系统包括数据输入、数据处理、统计分析、数据挖掘、图形可视化、系统维护等功能,并在山西某电信运营商的数据分析中得到应用.系统采用组件式开发和Ajax技术,保证了系统具有良好的可扩充性和交互性.本文的研究成果进一步丰富了分类数据聚类分析的研究,为生物信息数据、Web数据、客户交易数据等相关领域的数据挖掘与知识发现提供了新的技术支撑.