论文部分内容阅读
多示例分类模型最早是Dietterich等人[1]在研究如何解决制药业中选择哪种分子入药中提出的一种模型。在多示例学习中,我们直接把标签赋给多个示例组成的包,而不是包中的示例。如果包中至少有一个正示例,那么我们就把这个包标记为正包,反之,则将这个包标记为负包。到目前为止,已经有许多学者对多示例算法学习进行大量的研究,但是如何构造高效的多示例学习算法仍然是目前研究的热点。本论文将从分类精度这方面对多示例分类模型进行研究。
本文通过对多示例学习算法进行研究,发现只要在单实例学习目标函数中引入多示例问题的约束,那么传统监督学习方法也能够在多示例问题中取得比较好的分类能力。此外,考虑到集成学习方法能使传统监督学习算法提高泛化能力,本文在多示例学习模型中引入集成学习思想。实验结果表明这种方法可以解决多示例问题,也可以提高多示例学习算法的泛化能力。
关于多示例学习,虽然支持向量机已经取得较好的分类能力。但是,用全局数据训练得到的SVM分类模型未必适合个别未知类别样本。考虑到支持向量机在分类时,对分类结果产生影响主要是决策面附近的数据,而那些离决策面较远的数据对分类性能影响不大。本文提出一种基于SVM-KNN局部样本支持向量机的分类方法。
在Musk和Corel数据集实验中所得结果表明,集成学习的确能显著提高多示例学习算法的泛化能力。SVM-KNN局部样本支持向量机方法也提高了MI-SVM和mi-SVM分类精度。