论文部分内容阅读
数据分类,作为数据处理等相关领域重要的研究课题,可应用到医学数据、图像、网页数据、文本数据等诸多领域。在对目标数据进行分类的过程中,根据信息源的种类,目标可分为:有标记(labeled)信息和无标记(unlabeled)信息。而实际应用中,两种信息并存的情况更多,且对数据的标记代价是昂贵的,需要耗费大量的人力物力,而未标记样又是大量存在且廉价,在这样的情况如何更好的达到分类的效果,于是半监督学习(Semi-Supervised Learning)应运而生,并成为当前机器学习等领域的研究热点。本文对于协同训练算法和集成学习进行了深入研究,基于协同训练提出了更有效的协同训练算法,并做了半监督与集成结合算法的研究,逐步深入的探讨了自己的理解和方法,通过对UCI及文本数据和极化SAR数据分类进行研究得到了验证。首先,本文着重讨论了半监督学习思想中的一种热点算法:协同训练算法(Co-Training)。并将其与支撑矢量机(SVM)学习方法结合对UCI数据和文本、极化SAR数据进行分类。为了更好的满足协同的条件,我们引入了PCA(PrincipalComponent Analysis)技术来更严格的满足协同的条件。且在添加高置信度样本时,引入了更精确的置信度度量并与PAC(Probably Approximately Correct)理论估计误差下限相结合,更加精确的添加高置信度样本,且更有效的提高了算法的效率。通过对UCI数据和文本、极化SAR数据进行分类实验的测试,实验结果表明,该方法相比传统协同训练算法具有较好的分类精度。其次,对基于SVM分类器半监督学习与集成学习的结合进行研究,有效的结合了半监督与集成学习,基于集成策略构造了协同算法,较好的提高了协同算法的性能。在协同的迭代过程中,通过差异性选择集成的策略来选择对于相应分类器更有效的高置信度样本,更有效的提高了相应分类器的性能,从而较好的提高最终分类性能。本文通过对UCI数据和极化SAR数据的分类进行了实验,实验结果表明,该方法相比传统协同训练算法具有较好的分类精度。