惰性学习中实例选择研究与应用

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:xmyone1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
惰性学习不同于传统的急性学习,它具有训练代价少、假说空间丰富、渐进学习能力强、能进行增量学习等优点,因而被广泛应用于数据挖掘和网络信息处理等领域。然而由于惰性学习在分类查询实例时,需要计算查询实例与所有存储实例的距离,因而存在查询代价大的缺点。为了解决这个问题,在惰性学习诞生后不久,就出现了第一个实例选择算法,直至今天仍不断有新的实例选择算法出现。可见实例选择算法是提高惰性学习性能的重要方法,这同时也反映出现有实例选择算法仍有不足。为此,本文展开了如下研究。首先,进行了实例的特定邻域的分析。本文归纳和总结了一类经典的实例选择算法的共同点:它们都使用一种由实例的最近异类实例限定的特定邻域,并且显式或隐式地用到由这个特定邻域得到的两个同类实例集。可见这个特定邻域和这两个同类实例集在实例选择中有着重要作用。然而这些算法都忽视了限定邻域的最近异类实例在实例选择中的重要作用。本文由此提出了两个新的集合:最近异类实例集和异类实例覆盖集。然后分析了这两个集合在实例选择的作用,由此设计了一种边界实例选择算法(BIS)。最后在二维模拟数据集和UCI数据集上进行了实验,实验结果表明,BIS算法能较大量地约简实例存储量,并在很多数据集上取得较好的分类精度,但是在部分数据集上得到的选择集的分类精度不够理想。这也促使本文从更深层次——实例的分类性能上分析实例选择问题。其次,进行了实例分类性能评价函数的研究。由于经典的算法中没有考虑实例覆盖交叠的情况,对实例的分类性能的评价不够精确,因此本文分析和使用了更精确的相对同类实例覆盖来评价实例在分类同类实例的潜在贡献。同时,由于实例的最近异类实例集和异类实例覆盖集也存在交叠的情况,因此本文分析和定义了相对异类实例覆盖来精确地评价实例在维护分类边界方面的贡献。然后,同时从同类实例的角度和异类实例的角度综合考虑,定义了更精确和全面的实例分类性能评价函数,以此作为设计实例选择算法的基础。再次,进行了实例选择算法的设计。针对直接使用实例分类性能函数进行实例选择时,需要优化分类性能阈值选择的问题,本文设计了一种一致子集的实例选择方式,避开了这个问题。由此设计了基于实例分类性能的一致子集实例选择算法(IPECSS)。然后,根据IPECSS算法的特点,通过实验系统地分析了IPECSS算法的性能,并在二维模拟数据集和UCI机器学习数据库中的32个数据集上与经典的实例选择算法进行了实验比较。实验结果表明,IPECSS算法能在大幅度约简实例集的存储量的同时,保持着与训练实例集相同或更好分类精度,并较大地提高了分类效率。最后,针对惰性学习在协同过滤中存在的分类效率和分类精度不够理想的问题,本文将IPECSS算法应用到协同过滤系统中,在应用中检验了IPECSS算法的性能。
其他文献
Web服务与面向服务架构正作为分布式系统上的技术和架构涌现出来。Web服务作为一种能够快速集成应用的技术,代表了分布式计算的最新潮流,具有广阔的应用前景。Web服务建立在开
伴随分子生物学的兴起而出现的DNA计算机以其海量存储、高度并行运算能力等优点,在解决传统计算机难以胜任的NP完全问题甚至数学的难解问题上显示出巨大的潜力,成为解决这些
随着芯片技术、通信技术和传感技术的飞速发展,目前传感技术正迈入无线传感器网络新时代。这种网络由大量集成有传感器、数据处理单元和无线通信模块的微小节点组成,通过自组织
虹膜诊断是一种新兴的诊断方法,它能根据虹膜特定区域的纹理变化对身体健康状况进行诊断,对疾病的早期发现和跟踪治疗都具有很大的指导意义,具有重要的理论研究价值和广泛的应用
通信技术和计算机技术的迅猛发展使网络中的故障呈现复杂化、多样化,而传统的诊断方法和现有的智能诊断技术通常只能诊断出单一的故障类型和设备,已不能满足目前网络的需求。
移动学习是近年来随着网络技术、无线通信技术、移动计算技术和多媒体技术等的迅速发展及融合而悄然兴起的一种新型的学习技术与方式。结合移动学习技术,构建移动英语学习平
SEU是由带电粒子投射到集成电路器件的敏感区域引起的,通常会导致器件内部寄存器内容的改变,或内存位翻转。为了抵抗太空中的SEU,使基于FPGA的多光谱图像压缩系统在深空环境
网络教学正在以前所未有的速度和深度在教育领域全面推开,网络教学的推行需要大量的教学资源,教学资源中最重要的组成部分就是教学课件,各种格式的教学课件都需要各种相关软件的
无线传感器网络是一种新型的信息采集网络,通常由分布在一个探测区域内的大量传感器节点组成,这些节点自组织形成网络,获取该区域中的有用信息并将这些信息传输给网络的基站
随着信息呈爆炸式增长,人们对信息精确定位的需求促进了自然语言处理技术的研究。指代消解是自然语言理解中的重点和难点之一。它一方面综合了多种自然语言处理技术,如词性标注