论文部分内容阅读
惰性学习不同于传统的急性学习,它具有训练代价少、假说空间丰富、渐进学习能力强、能进行增量学习等优点,因而被广泛应用于数据挖掘和网络信息处理等领域。然而由于惰性学习在分类查询实例时,需要计算查询实例与所有存储实例的距离,因而存在查询代价大的缺点。为了解决这个问题,在惰性学习诞生后不久,就出现了第一个实例选择算法,直至今天仍不断有新的实例选择算法出现。可见实例选择算法是提高惰性学习性能的重要方法,这同时也反映出现有实例选择算法仍有不足。为此,本文展开了如下研究。首先,进行了实例的特定邻域的分析。本文归纳和总结了一类经典的实例选择算法的共同点:它们都使用一种由实例的最近异类实例限定的特定邻域,并且显式或隐式地用到由这个特定邻域得到的两个同类实例集。可见这个特定邻域和这两个同类实例集在实例选择中有着重要作用。然而这些算法都忽视了限定邻域的最近异类实例在实例选择中的重要作用。本文由此提出了两个新的集合:最近异类实例集和异类实例覆盖集。然后分析了这两个集合在实例选择的作用,由此设计了一种边界实例选择算法(BIS)。最后在二维模拟数据集和UCI数据集上进行了实验,实验结果表明,BIS算法能较大量地约简实例存储量,并在很多数据集上取得较好的分类精度,但是在部分数据集上得到的选择集的分类精度不够理想。这也促使本文从更深层次——实例的分类性能上分析实例选择问题。其次,进行了实例分类性能评价函数的研究。由于经典的算法中没有考虑实例覆盖交叠的情况,对实例的分类性能的评价不够精确,因此本文分析和使用了更精确的相对同类实例覆盖来评价实例在分类同类实例的潜在贡献。同时,由于实例的最近异类实例集和异类实例覆盖集也存在交叠的情况,因此本文分析和定义了相对异类实例覆盖来精确地评价实例在维护分类边界方面的贡献。然后,同时从同类实例的角度和异类实例的角度综合考虑,定义了更精确和全面的实例分类性能评价函数,以此作为设计实例选择算法的基础。再次,进行了实例选择算法的设计。针对直接使用实例分类性能函数进行实例选择时,需要优化分类性能阈值选择的问题,本文设计了一种一致子集的实例选择方式,避开了这个问题。由此设计了基于实例分类性能的一致子集实例选择算法(IPECSS)。然后,根据IPECSS算法的特点,通过实验系统地分析了IPECSS算法的性能,并在二维模拟数据集和UCI机器学习数据库中的32个数据集上与经典的实例选择算法进行了实验比较。实验结果表明,IPECSS算法能在大幅度约简实例集的存储量的同时,保持着与训练实例集相同或更好分类精度,并较大地提高了分类效率。最后,针对惰性学习在协同过滤中存在的分类效率和分类精度不够理想的问题,本文将IPECSS算法应用到协同过滤系统中,在应用中检验了IPECSS算法的性能。