基于近邻分类的实例选择算法研究

来源 :河北大学 | 被引量 : 0次 | 上传用户:nfu54153
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近邻分类算法是机器学习领域应用最为广泛的学习算法之一,但该方法需要较大的计算量和存储量。因此,基于近邻分类的实例选择成为研究焦点之一。此外,现有的基于近邻分类的实例选择算法都是在已标注类别的实例集上进行挑选,而获得实例的类别标注需要花费大量的人力和物力,实例选择是解决该问题的可行途径。针对近邻分类需要大量计算和存储的问题,本文提出了基于分类贡献的实例选择算法,根据实例对分类的贡献从已有类别标注的实例集中进行实例选择,并且提出了允许挑选集合在训练集上存在一定的错误率,以提高泛化能力。针对获得类别标注需要花费标注代价的问题,本文将极大熵原理用于实例选择,提出了基于极大熵的实例选择算法。通过计算候选实例的信息熵,挑选信息熵最大的实例,可以挑选到对分类起关键作用的实例交由专家标注。在人工数据集和真实数据集上的实验验证了该算法的有效性。
其他文献
本文是针对计算机辅助几何设计与制造(CAGD/CAM)中的曲线曲面造型问题,运用一种基于曲线融合的思想所进行的基础理论和应用的全面总结。其内容包括:基于融合的样条曲线造型方
遗传算法是一种十分优秀的解搜索算法。它有着天生的并行特性,因而并行遗传算法通常被设计应用于计算量大的理论计算和工程设计等诸多方面。但并行程序设计向来都较为复杂,并
随着云计算技术的发展和对云计算技术应用的不断增长,云计算系统的规模也随之增长,从而造成了云计算系统分布于多个数据中心的情况。云存储子系统是云计算系统的重要组成部分
学位
大词汇量连续语音识别(Large Vocabulary Continuous Speech Recognition,LVCSR)是语音识别研究的重点和难点之一,其涉及了声学模型、语言模型、搜索算法等多方面的知识和技
随着信息时代的到来,通过网络传递信息成为生活中一种必不可少的通信手段,在进行网络通信的过程中,服务器系统提供了有力的支持。当今的网络系统是以IP协议为基础,以服务器系
微阵列技术的快速发展使得同时测量成千上万个基因的表达情况成为可能,并被广泛地用于研究不同癌症和肿瘤的基因表达模式,为从分子水平研究疾病机理以及疾病诊断和预后提供了一
随着计算机的普及以及GIS技术的发展,开发基于GIS的高效准确的土地定级系统已经成为土地定级行业的迫切需求。论文通过分析土地定级工作的现状,提出了土地定级系统的需求,完
伴随着计算机技术、移动通讯技术和互联网技术的迅速发展,计算方式也在不断地变化。当今新兴的移动计算模式使人们在任何时候、任何地点访问自己需要的信息成为可能。然而移
词法分析是自然语言处理技术的基础,其性能将直接影响句法分析及其后续应用系统的性能。词法分析作为基础性处理步骤,其前期的错误会沿处理链条扩散,并最终影响面向终端用户的应