论文部分内容阅读
深度学习算法的兴起使得机器学习取得了革命性的突破。受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)作为深度学习的基础算法之一,不仅可以有效地提取特征,拟合任意形式的离散分布,也可以为传统的神经网络提供良好的初始值,改善模型的泛化能力,同时扮演着深度置信网络基础构成模块的重要角色等。此外,RBM也可以用作独立的分类器(ClassRBM)去处理分类问题。通常,训练ClassRBM有三个目标函数可以选择,分别是生成式目标函数(Generative Objective Fucntion,GenF)、判别式目标函数(Discriminative Objective Function,DisF)和它们的加权和。然而,已有的ClassRBM还存在着许多不足,比如:用GenF训练时,由于GenF函数值的计算需要遍历模型中所有节点的可能状态,复杂度极大,难以计算,一般通过抽样方法进行估算,使得模型准确率不高;用DisF训练时,目标值可以精确计算,但计算过程相当耗时;而用GenF和DisF加权和训练时,加权系数需要进行优化,增加了模型的复杂度。本文针对ClassRBM的不足,进行了两个改进。首先,针对单纯用GenF或DisF或它们的加权和训练ClassRBM的不足,提出一种交替用GenF和DisF训练ClassRBM的方法(ANGD),并在多个数据集上进行对比实验,结果表明ANGD提高了 ClassRBM的分类性能,特别是隐藏层节点数较多的时候。其次,利用ClassRBM的概率输出,提出了一种多分类器集成算法ClassRBM-MCI,进一步改善分类性能。在ClassRBM-MCI中,先用ANGD方法训练ClassRBM得到一个分类器C1;接着将对C1的概率输出较小的训练样本过滤出来组成一个训练样本子集,然后用ClassRBM、支持向量机和随机森林三种方法在此样本子集上训练得到分类器C2、C3和C4。对于一个测试样本,首先将其投入C1,如概率输出值大,直接用C1的结果作为其分类结果,否则用C1、C2、C3和C4的组合作为分类结果。通过与目前主流分类器进行实验对比,结果表明ClassRBM-MCI提升了ClassRBM的分类性能,并取得了比传统主流分类器更好的结果,尤其是训练样本比较多时,无论是测试准确率还是训练效率上都有一定的优势。