基于图的半监督分类算法研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:acup
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在许多机器学习的实际任务中,获得足够的有标记样本是非常昂贵和费时的,而大量的未标记样本容易获得。在少量有标记样本上使用监督式学习方法,训练出的学习器泛化能力不强,容易出现过拟合现象。另一方面,当使用无监督式学习方法时,会极大地浪费有标记样本包含的标签信息。半监督学习能够综合利用有标记样本和无标记样本来提高学习器的泛化能力,已经得到了广泛的研究与应用。基于图的半监督分类算法因为分类性能好、目标函数是凸函数、求解容易等优势获得了更多的关注。图构造是基于图的半监督分类的重要前提工作,图是决定基于图的半监督分类性能的关键因素之一。然而,如何构造一个能够真实地反映样本分布的图是相当困难的。稀疏表示最近被应用于图构造,基于稀疏表示构造的图对高维样本中的噪声特征表现鲁棒。但是,传统稀疏表示构造图采用全部样本作为字典集,时间花费大。此外,流形假设是基于图的半监督分类的基本假设之一。它的定义是:同一个局部邻域内的样本具有相似的性质,因此其标记也应该相似。然而,当两个样本相互靠近,跨越不同类别的边界时,流形假设可能不总适用。结果,仅仅基于流形假设的分类方法可能误分边界样本。针对基于图的半监督分类算法存在的上述问题,本文在现有研究成果基础上,提出三种基于图的半监督分类算法。论文的具体工作如下:(1)提出一种基于局部稀疏表示的半监督分类算法(SSC-LSR)。SSC-LSR首先使用样本的k近邻作为字典集去计算每个样本的稀疏重构系数,而不是将所有可用样本作为字典集,再基于这些稀疏重构系数构造一个局部稀疏表示图。最后在这个图上训练广泛使用的高斯随机场与和谐函数(GFHF)分类器,预测未标记样本的标记。在两个公共人脸数据集上的实验结果表明,SSC-LSR分类精度比传统方法高。(2)提出一种基于局部子空间稀疏表示的半监督分类算法(SSC-LSSR)。SSC-LSSR首先把样本分成若干个随机子空间,在每个随机子空间上构造局部稀疏表示图。然后,在构造的图上训练一个基于图的半监督分类器。最后把这些分类器通过投票策略集成一个分类器,预测未标记样本或新来样本的标记。在两个公共人脸数据集上的实验结果表明,SSC-LSSR分类精度比相关方法高,并且时间花费较少。(3)提出一种基于判别性正则化的半监督分类算法(SSCDR)。SSCDR首先分别构造一个k近邻图来捕捉样本的局部流形结构,和一个判别图来嵌入约束聚类学习的判别性信息。然后将两个图纳入设计的判别性正则化框架,预测未标记样本或新来样本的标记。在UCI和人脸数据集上的实验结果表明,SSCDR分类精度比相关方法高,并且对输入参数k鲁棒。
其他文献
肿瘤细胞图像作为一种常用的医学图像和自然图像,具有细胞结构复杂、图像冗余度高和图像高阶统计特性服从非高斯分布的特点。不少研究学者通过提取图像的几何特征来实现肿瘤
无线传感器网络(Wireless Sensor Networks,WSNs)主要由大量微型传感器节点构成,具备感知、采集并传输信息的功能。由于节点自身携带电池能量有限,因此,实现节点能耗均衡、延长网络
麦长管蚜是我国大多数麦区的主要害虫,对小麦的危害严重。准确预测麦长管蚜的发生量,是进行正确防治决策和减少农药用量的前提。目前麦蚜的预测多为发生级别而非发生量的预测
随着云计算的迅速发展,越来越多的数据被存放在云服务器中。云存储作为一种新型的存储服务,所具有的高可扩展性、高可靠性、价格低廉和可随时随地接入访问的特点,为海量数据
随着网络的迅速发展,计算能力与存储能力的不断提高,数据集的规模也有了飞速的增长。为了从大量数据中获取有价值的信息,需要对采集到的数据进行数据挖掘。而特征选择又是数据挖
随着人机交互的发展,形象、生动、直观的手势动作被当作人机自然的交流手段,使用户摆脱了键盘、鼠标等传统输入方式的束缚,在人机交互领域中具有不可估量的意义。从手势的输
时至今日,大数据(BigData)时代已经来临,尤其在电信、金融、互联网行业,数据量的增长已达TB甚至PB级。如何对大数据进行统计分析是我们面临的巨大挑战。云计算的出现和发展,
数字图像处理技术从二十世纪五十年代开始发展到现在,已经在人类生产生活的各个领域取得了广泛的应用。图像分割作为数字图像处理的关键技术之一,不断吸引着众多学者投入到相
随着煤炭开采量增加和开采层位愈来愈深,煤矿井下突水事件发生概率增大,地下水害已成为威胁煤矿安全生产的主要因素。井下明渠流量监测作为煤矿的常规任务为地下水害预警分析提供了重要的基础资料和历史参考依据。但传统的堰式和槽式流量计在井下明渠底部淤泥沉积的情况下测得的流量值与实际值存在严重偏差。为了精确实时测量井下明渠流量,研发精度更高、实时性更强、适合井下环境的明渠流量测量仪具有重要意义。文章研究了各类传
时间序列问题作为数据挖掘中的一类重要问题,其重要性表现在现实世界中大量数据的采集与时间相关,数据具有时间上的关联性。时间序列是指按时间顺序排列的一组有序序列。时间序