论文部分内容阅读
模式分类是机器学习的核心技术之一。将数据集中属性一致的样本投影到某一给定的类别当中,并模型化为具体的分类器。近年来,模式分类取得了许多重要的研究成果,出现了诸如决策树、Bayes分类、k-近邻、神经网络、遗传算法、支持向量机等经典算法。随着其应用领域的进一步扩大,需要做分类处理的数据也变得复杂多样,分类模型的建立和分类器的设计面临着越来越多的挑战。本文围绕在分类问题中如何处理高维小样本数据、多源特征数据,以及在分类过程中如何利用数据分布的复杂结构信息有效提高分类性能的问题展开了研究。主要内容如下:(1)为解决高维复杂数据的维数约简问题,提出了一种新的基于正交局部判别嵌入(Orthogonal Linear Discriminant Analysis, O-LDE)的维数约简方法,并结合最近邻方法分类。首先,建立两个能够保持数据局部邻域信息的类内和类间邻接图;其次,针对小样本问题,重新定义邻接矩阵,适当修正优化的目标函数;然后,通过构建正交基求解目标函数,完成高维空间到低维流形的嵌入;最后,在低维空间中利用最近邻法进行分类。O-LDE的维数约简方法通过对类内样本的紧密度和类间样本的分离度的保持,达到了抽取有效分类信息和压缩特征空间维数的双重效果。在公共数据集Leukemia的试验结果表明该方法在基因表达谱的肿瘤识别中比LDA、LLDE、LDE等维数约简方法表现出更好的性能。(2)针对复杂数据的多源特征难以集中到一个分类器中做决策的问题,提出了一种基于分组特征子集选择的Bayes集成学习算法(the Bayesian Ensemble Algorithm based on Grouped Feature Selection, EGFS+BC)。首先,将数据特征按来源分组,对于每个特征源随机地从中抽取一部分作为初始化的特征子集;然后,以提高Bayes基分类器的准确率和分类器之间的差异度为目标,完成特征子集的动态选择;最后,根据选择得到的特征子集训练合适的基分类器,在集成学习的框架下,用加权投票的方式进行综合决策。该方法利用了不同源特征之间的差异性和互补性,在公开的DDSM多源数据集上的试验结果显示,该方法比k-NN、 Boost C5、Neural Net等多种分类器都具有更高的分类准确率。(3)为了更好的利用复杂数据中潜在的类内结构信息,提出了基于样本空间结构学习的分组SVM方法,包括基于聚类分组的SVM(Clustered Group SVM, GC-SVM)和基于EM样本空间分割的分组模糊支持向量机方法(Grouped Fuzzy SVM Algorithm with EM-based Partition of Sample Space, EMG-FSVM)。首先,为了清楚的描述类内样本结构信息,按照一定的相似性度量规则(分别采用了聚类和EM技术)对正、负类的样本空间分别进行有效分组;然后,交叉结合不同的正、负类的群组样本,训练出不同的SVM子分类器:最后,对未知的新样本,则根据其与各划分小组中心的Mahalanobis距离选择特定的SVM分类器来判断类别。该方法将复杂的大样本二次规划问题划分为一系列小的、简单的二次规划子问题,缩短了分类器的训练时间,一定程度上还提高了分类速度。仿真和实际乳腺病灶数据的试验结果表明,该方法确实比各种不同核的SVM方法具有更好的分类效果和稳定性。