论文部分内容阅读
随着互联网的广泛应用,电子信息不断积累导致信息泛滥,如何从海量信息中及时有效的提取用户感兴趣的信息,获得用户想学习的知识和技术已经成为当前数据挖掘的重要研究课题。而聚类算法是实现对海量数据聚类、发现有用信息的一种重要工具,因此聚类算法成为国内外研究者近年来研究的热点问题。与其它聚类算法相比,支持向量聚类算法有以下两个优点:第一,支持向量聚类算法根据支持向量点的理论可以识别任意形状的簇,并且保证算法的稳定性;第二,支持向量聚类算法引入惩罚因子便于识别噪声数据,能够有效的处理相互重叠的簇。但是支持向量聚类算法存在以下缺陷,识别噪声数据的能力有限;在聚类训练阶段数据集内部支持向量点的存在会导致聚类过程陷入局部最优,影响聚类效果;聚类分配阶段计算邻接矩阵的时间复杂性是数据集规模的平方级数,影响了算法的聚类速度。为了解决上述问题,设计了一种改进的支持向量聚类算法。改进算法在算法执行之前首先对数据集进行预处理,提高算法辨别噪声数据的能力;其次在聚类训练阶段消除影响聚类质量的内部支持向量点,增加算法的稳定性;再次在聚类分配阶段改变对数据集遍历确定平衡点的策略,使用支持向量点解决此问题有相同的效果;最后抽样计算簇标签的方法代替线性遍历策略。基于上述策略对SVC算法改进。改进算法摒弃了SVC算法的不足,保存了它的优点,同时解决了SVC算法局部最优、噪声数据降低聚类质量和算法时间复杂度高的问题。此外,采用经典数据集进行仿真实验,并且与SEP-CG算法和E-SVC算法进行比较分析。仿真结果表明,改进算法解决了局部最优问题,提高了聚类算法的精度,降低了算法的时空复杂度,能够达到预期效果。