论文部分内容阅读
回归问题、分类问题和聚类问题是机器学习领域中的三类经典问题。现有的回归模型在处理回归问题时有一些弊端,而传统的分类算法和聚类算法在应对某些类别划分的相关问题时又有些不足,因此本文针对上述两种问题提出了一些解决方案,并经过实验验证了方案的可靠性。 解决回归问题一个比较有效的模型是支持向量回归模型,其使用少量样本(支持向量)训练模型,速度较快且泛化性能较好。然而,传统的支持向量回归算法需要人工指定平衡经验误差与模型复杂度的正则参数,而且对于模型的每个参数均估计为固定的一个值(“点估计”)。这样导致了两个问题:1.如果正则参数指定不合理,那么结果会受很大影响。可以通过交叉验证的方式寻找合适的正则参数,但又非常耗时;2.“点估计”使得当数据集的样本数目比较少或噪声比较多时,得到的模型容易过拟合,尤其对于在线场景,噪声的影响更加严重。因此,本文提出了一种基于贝叶斯的支持向量回归模型来回避上述两个问题。该模型引入了伪似然和数据扩充的思想,在扩充的数据空间进行变分推断,并且被扩展到在线学习的场景。在一系列基准数据集以及实际的交通事故率预测数据集上的实验表明了本文提出的模型比其他的模型在预测准确性与速度上更具有优势。 传统的分类问题有很多成熟的模型。然而,实际生活中聚类问题往往更常见。即便是对于分类问题,由于完整的数据难以搜集、人工标注成本高,有些时候测试数据中可能包含一些训练数据中并未出现过的新的类别的数据。这种情况下,传统分类模型无法识别新数据中的未知类别,而传统的聚类模型又无法充分利用已知类别的监督信息。为了解决这类问题,本文提出了一种基于变分贝叶斯的分类聚类协同算法,该算法不仅能够有效地利用已知类别的监督信息,同时也可以将未知类别的数据中有价值的隐含信息挖掘出来进行聚类,分类与聚类被融合到同一过程中进行。为了使分类聚类的结果更加准确,本文融入了一个同样基于变分贝叶斯的深度学习模型。使用深度学习模型学到的数据特征比原始的数据特征更有价值且更低维,这样会加快分类聚类的过程;同时,我们也改进了深度学习模型,使用分类聚类的结果指导深度学习模型学习特征,从而使特征对于不同的类别更加有区分性。基于不同数据集进行的实验表明本文提出的模型比传统的分类模型与聚类模型更擅长解决新类识别的问题。