论文部分内容阅读
人工智能的地位已经上升到国家战略层面,而作为人工智能核心的机器学习无疑具有巨大的发展潜力,甚至有可能成为下一阶段产业革命的主动力。然而,传统监督学习需要足够多的有类标数据作为监督学习算法的支撑,否则就无法获得足够泛化性能的监督学习模型。况且,实际工业应用中,有类标的数据的获得,需要专家经验,耗时耗力。半监督学习由于可以利用少量的有类标数据及大量的无类标数据进行训练,并在实际应用中取得较好的结果。然而目前,半监督学习领域的研究大多集中于采用基于类标渗透及数据分布模型的思想解决类标数据不足的问题,类标渗透类算法利用有类标数据预训练得到一个学习器,并通过不断优化该学习器并给无类标数据贴标签的方式进行模型’训练,如S3VM、Tri-Training等;现有的数据分布类算法假设样本服从某种分布,并通过有类标数据及无类标数据共同确定模型参数。针对上述问题,本文提出了基于生成式对抗网络的半监督学习模型,该方法利用生成式对抗网络能自适应地生成与所给真实样本相似的伪样本这一特性,有效地生成所需训练数据,打破了原有半监督学习算法的局限性。首先初始化模型,然后选择具有高置信度样本,扩充标记到原数据集合中。再将扩充后在数量及质量方面都有所提高的的标记样本进行类别划分,分别作为不同类别生成式对抗网络的真实样本数据,通过GAN中生成器学习得到相对应类别的样本。最后将所有生成样本通过两个不同类别的学习器进行类标确定及数据筛选,得到高质量的训练样本后进行最终分类模型训练。本文方法能有效利用生成式对抗网络的优势,从无到有生成训练数据,从源头上解决了半监督学习中类标数据不足的问题。最后利用本文所提算法在UCI基准数据集上进行了实验,并与传统监督学习及近年著名半监督学习算法进行比较分析,验证了所提算法的有效性。