论文部分内容阅读
目前,数据挖掘技术越来越为人们所重视。而分类是数据挖掘领域当中一个非常重要的问题,聚类算法和支持向量机在处理分类问题上都表现地非常的出色,成了当今数据分类的两种十分有利的工具。其中,聚类算法能够把大量数据点的集合分成若干类,使得每个类中的数据之间最大程度地相似,而不同类中的数据之间最大程度地不同。而支持向量机作为目前统计学习理论的VC维理论和结构风险最小化原则的具体实现算法,它能够很好的解决传统机器学习中的维数灾难和局部极小值等问题,并且建立预测准确率高的分类器。
针对大规模数据集学习时,支持向量机难以满足实际应用的需求。针对此问题,在研究和分析目前有关算法的基础上,将支持向量机和聚类算法相结合,提出了基于协同聚类的支持向量机分类方法。并在UCI数据集上,将该分类方法与SMO算法以及RSVM算法相比较,验证了该分类方法能够有效的简约支持向量的数量,提高分类精度,减少分类时间。
本文所做的工作主要有:
(1)对最小二乘支持向量回归算法(LS—SVR)进行了改进,对LS—SVR的最优化问题作了一定的改进,得到一个线性方程组。改进后的LS—SVR只需要对这个线性方程组求解,大大简化了求解过程。
(2)提出了基于协同聚类的二类支持向量机(CC—SVM),通过协同聚类算法得到的类中心来取代简化的支持向量机(RSVM)中随机选取的候选支持向量。通过实验证明,CC—SVM算法能够有效的简约支持向量的数量,提高分类效率。同时,将分类问题进一步的推广到支持向量机的多类分类问题,提出了基于协同聚类的多类支持向量机。
(3)提出了基于协同聚类的支持向量回归机(CC—SVR),首先利用LS—SVM算法进行回归,再进行协同聚类,最后利用改进的LS—SVR进行回归。通过实验证明,基于协同聚类的支持向量回归机(CC—SVR)较之于单纯的LS—SVR回归,能够有效的简约支持向量的数量,提高分类速度。