论文部分内容阅读
标准Co-training算法对于充分冗余视图的条件限制是经过充分的理论推导得出的,其在保证所生成的分类器模型的分类性能的同时,也限制了该算法的应用范围。基于上述问题,并主要以解决桥梁结构健康数据分类问题为目的,本文在继承了标准Co-training算法基本思想的基础上,分别针对充分冗余视图条件、样本标记规则以及模型更行策略做出了一定的改进,从而提出了一种改进的协同训练算法,即基于分类器差异性的协同训练算法(Co-training Based on DifferenceAlgorithm),旨在为多视图数据分类问题提供一种更为有效的算法。改进如下:(1)对于原始数据集中不存在天然特征分割视图的分类问题,提出一种视图分割方法,旨在对多属性的数据集进行属性分割,以形成两个视图。该视图分割方法首先通过一种基于Bootstrap技术和直方图的方法估计每个非类别属性与类别属性之间的互信息量,然后对其进行排序,最后根据信息量相近的原则来对非类别属性进行平均分割;(2)为了进一步提高用来更新分类器模型的未标记样本的标签的置信度,提出了一种未标记样本标记方法,使得在挑选出高置信度的样本之后,增加了一个一致性和非一致性的判断环节,以期通过Agreement和Disagreement两种标记规则的结合,从而为模型更新挑选出具有较高准确度的标签的样本;(3)考虑到分类器差异性在协同训练过程中的关键作用,该算法在模型更新时,通过提出的分类器差异性评估方法来辅助判断是否继续迭代,充分重视了分类器差异性的关键作用,并分析了分类器差异性在协同迭代过程中的变化趋势,使分类器的性能得到更好的优化。本文对每个改进的有效性均作了理论分析或是实验验证,对得到的结果进行了详细的分析,证明了本文改进的有效性和可行性。此外,还通过对多个数据集的分类实验,将本文算法分别与半监督学习算法和监督学习算法在同等条件下的分类性能进行了比较。实验结果说明了本文算法的优越性能以及其在桥梁结构数据分类问题上的适用性,可以为桥梁结构健康状况提供相应信息以辅助决策。