论文部分内容阅读
在大数据时代,仅仅通过人工处理海量数据的方法往往不符合实际。为此,产生了以计算机为工具,并结合统计学等多个学科的机器学习。机器学习的方法为计算机处理海量信息提供了解决方案。在很多实际问题中,需要对样本进行类标记,通常已有类标记的样本量较少,而无类标记的样本较多。限于时间或成本等因素,在短时间内难以对所有的样本进行标记。因此,为解决类标记问题,在监督学习的基础上,加入大量的无标记样本,共同训练模型以预测未标记样本的类标记,产生了半监督学习。近年来,半监督学习的思想和方法广泛应用于工程、生物、医疗、金融等多个领域。 目前,半监督学习的研究主要集中在流形正则化框架下,即构造流形正则项以度量样本的几何结构。现有的模型改进主要包含:引入成对约束项等方法再次挖掘标记样本信息;改进模型的损失函数,如在损失函数中加入投影的方法;改变模型的结构,如将支持向量机模型推广为双子支持向量机模型;引入相关准则,如引入信息论中最大相关熵等方法,以提高模型的稳健性。 本文在相关研究的基础上,提出了两个基于联合正则化半监督分类模型。为获取更多的经验信息,在流形正则化框架下,引入成对约束与最大相关熵等方法,提出基于最大相关熵准则成对约束半监督分类模型,并给出模型的参数估计。将成对约束项加入到半监督投影双子支持向量机模型中,提出基于成对约束半监督投影双子支持向量机模型,并给出模型的参数估计。同时,从半监督分类方法出发,描述并对比不同背景下的半监督分类模型。结合生成式方法,总结出半监督生成式方法的一般步骤。最后,分别在构造数据集和UCI数据集上,对比提出的模型与现有模型的分类正确率。实验结果显示,改进的半监督模型在一定程度上提高了分类准确率与模型稳健性。