基于联合正则化半监督分类方法的研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:blnxy778
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代,仅仅通过人工处理海量数据的方法往往不符合实际。为此,产生了以计算机为工具,并结合统计学等多个学科的机器学习。机器学习的方法为计算机处理海量信息提供了解决方案。在很多实际问题中,需要对样本进行类标记,通常已有类标记的样本量较少,而无类标记的样本较多。限于时间或成本等因素,在短时间内难以对所有的样本进行标记。因此,为解决类标记问题,在监督学习的基础上,加入大量的无标记样本,共同训练模型以预测未标记样本的类标记,产生了半监督学习。近年来,半监督学习的思想和方法广泛应用于工程、生物、医疗、金融等多个领域。  目前,半监督学习的研究主要集中在流形正则化框架下,即构造流形正则项以度量样本的几何结构。现有的模型改进主要包含:引入成对约束项等方法再次挖掘标记样本信息;改进模型的损失函数,如在损失函数中加入投影的方法;改变模型的结构,如将支持向量机模型推广为双子支持向量机模型;引入相关准则,如引入信息论中最大相关熵等方法,以提高模型的稳健性。  本文在相关研究的基础上,提出了两个基于联合正则化半监督分类模型。为获取更多的经验信息,在流形正则化框架下,引入成对约束与最大相关熵等方法,提出基于最大相关熵准则成对约束半监督分类模型,并给出模型的参数估计。将成对约束项加入到半监督投影双子支持向量机模型中,提出基于成对约束半监督投影双子支持向量机模型,并给出模型的参数估计。同时,从半监督分类方法出发,描述并对比不同背景下的半监督分类模型。结合生成式方法,总结出半监督生成式方法的一般步骤。最后,分别在构造数据集和UCI数据集上,对比提出的模型与现有模型的分类正确率。实验结果显示,改进的半监督模型在一定程度上提高了分类准确率与模型稳健性。
其他文献
当技术形成和稳定之后,技术扩散成为提高经济实体质量和提升经济发展速度的重要力量。当前对技术扩散的研究呈现三点不足:一是,缺乏较为系统的分析框架,多以单一的成本论或收益
道路交通安全是当今社会关注的一个焦点。《道路交通安全法》颁布后,机动车第三者责任强制保险制度成为近几年学术界研究和社会各界关注的一个热点,但学者们从法学角度讨论较多
在竞争日益激烈的环境下,企业只有以市场为导向,强调合作、信息共享、快速反应,才能使自己以及相关企业在竞争中处于优势地位。供应链管理作为增强企业乃至整个行业竞争力的关键