【摘 要】
:
监督学习中,训练数据标签的质量对学习的效果至关重要,然而现实数据常常存在着标签被错误标记的情况,这些标签错误的样本被称为标签噪声。标签噪声通常会对分类模型的训练产
论文部分内容阅读
监督学习中,训练数据标签的质量对学习的效果至关重要,然而现实数据常常存在着标签被错误标记的情况,这些标签错误的样本被称为标签噪声。标签噪声通常会对分类模型的训练产生负面影响,如增加分类模型的训练时间,降低分类性能以及增加模型的复杂度等,因此对标签噪声进行处理十分必要。相对密度是一种过滤标签噪声非常有效且通用的方法,但由于其具有2O(N)的时间复杂度,所以在较大的数据集上效率较低。粒计算是一种可扩展,高效且健壮的方法,它使用简单、低成本的近似解决方案代替精确的解决方案。本文利用粒计算这一特性,对相对密度进行改进,提出了基于空间划分的快速相对密度方法,该方法首先将样本空间划分为一系列子分区,然后在每个分区内部计算样本的相对密度,从而减少传统方法在全局计算相对密度所带来的时间开销。实验证明提出的方法具有比传统相对密度高得多的效率,且能保持较好的标签噪声过滤性能。此外,提出了空间划分相对密度算法的进一步改进方法,即多层空间划分相对密度算法,划分时给出多个划分标准,得到多个划分结果,每个划分结果分别计算一次相对密度,从多个粒度上共同检测标签噪声。由于空间划分的动态性,在一次完整的划分的过程中便可完成相对密度的多次计算,因此改进后的方法依然具有高效性。实验表明该方法不仅效率高,且比传统相对密度具有更高的准确率。面对含标签噪声的数据时,现有的采样方法常常会得到不理想的结果,而多粒度方法本身具有可扩展和健壮等性能。因此,引入了粒球的概念,提出了一种不限于任何特定数据集、特定分类器或特定场景的通用采样方法,称为粒球采样。粒球采样不仅可以减小数据集中样本数量的大小,对数据样本数量进行压缩,同时还拥有过滤数据中标签噪声的能力,从而提高数据质量。
其他文献
由于核磁共振对软组织有较佳的清晰度,采用MRI图像引导的乳腺介入手术因其微创性和准确性而备受关注,但是MRI具有其独特性,如内部空间有限,材料选择需使用核磁兼容的材料等,
大数据云计算在推动各行各业快速发展的同时,也给个人隐私安全带来了严峻挑战。为了能够更好地推动各行业的快速发展,越来越多数据需要被共享,这些数据中包含了一些较为敏感
从2003年Belle合作组发现X(3872)以来,一系列的类粲偶素态(XYZ态)被BaBar、Belle、CLEO和BESⅢ合作组在e+e-碰撞中观察到。如:Belle合作组在B±→K±π+π-J/ψ衰变中观测到X
森林在生态系统中起着关键作用,是陆地生态系统的主题,森林具有多种强大的功能,不但可以实现大气的净化,确保空气保持稳定的平衡,而且还能为人类的生存与发展提供生活的基本
社区识别是社交网络分析领域的重要研究内容,近年来得到了各领域研究者的广泛关注。社区是网络中的密集群组,满足同一社区内部节点间的链接相对紧密,不同社区节点间的链接相
双聚类技术作为一种局部关联分析方法,被提出用于从数据矩阵中挖掘符合子矩阵模型条件的子矩阵模式,进而发现数据中有趣的局部相关性。然而,在双聚类技术研究过程中,如果只关
目的构建野生型和突变型SMARCAL1慢病毒载体,初步研究Schimke免疫-骨发育不良(SIOD)新发致病突变对SMARCAL1蛋白表达的影响。方法采集一例新确诊SIOD患儿外周血样本进行基因测序,通过检测发现新发突变位点,利用蛋白质分析软件初步预测新发突变蛋白功能。利用PCR技术合成野生型和突变型SMARCAL1基因序列,突变型SMARCAL1基因序列包含新发突变位点。准备载体pHBLV-CM
强子间的相互作用、强子的内部结构以及强子态是粒子物理研究的前沿课题。目前实验上关于h1(1380)的实验数据很少,PDG上只有三个实验组的数据,h1(1380)态的内部结构特性一直
数据分析已成为当今时代讨论和研究的核心内容,大数据时代下对具备数据分析素养人才的培养有很大需求。现代数学教学更加注重学生的数学基本活动经验的积累,但是目前有关将数学基本活动经验运用在教学设计与实践操作中的研究还很匮乏。概率与统计教学中蕴含着大量的数学活动,非常适合开展相关活动课程来提升中学生的数据分析素养。为了提升初中生的数据分析素养,本论文以明确数据分析素养的培养策略为主要任务。根据对现有文献的
我国是青椒产量最高的国家,拥有着广阔的种植面积。青椒生产采摘属于劳动密集型产业,随着劳动成本的升高,需要通过对农业自动化机械装备的研发,以推动青椒产业的健康持续发展