【摘 要】
:
不平衡数据广泛存在于医疗、经济等领域。随着社会的发展和进步,特别是进入大数据时代,越来越多的数据是高维且不平衡的,这对机器学习和数据挖掘而言是巨大的挑战。分类是计算机领域的研究热点,在处理这些高维不平衡数据时,决策树、随机森林、支持向量机等传统分类算法的分类准确率不能很好地满足人们的需求。本文以不平衡数据集为研究对象,运用不同的特征选择算法进行分析,并在此基础上进行分类,旨在兼顾少数类和整体的准确
论文部分内容阅读
不平衡数据广泛存在于医疗、经济等领域。随着社会的发展和进步,特别是进入大数据时代,越来越多的数据是高维且不平衡的,这对机器学习和数据挖掘而言是巨大的挑战。分类是计算机领域的研究热点,在处理这些高维不平衡数据时,决策树、随机森林、支持向量机等传统分类算法的分类准确率不能很好地满足人们的需求。本文以不平衡数据集为研究对象,运用不同的特征选择算法进行分析,并在此基础上进行分类,旨在兼顾少数类和整体的准确率,增强它们的分类能力。本文的主要研究内容如下:(1)针对过滤式特征选择算法没有考虑特征之间的协同作用,而忽略特征协同作用会导致分类性能下降的问题,提出了一种基于特征协同的特征选择算法(FSBS)。该算法首先利用相互增益评判特征之间协同作用的强弱,再运用AUC值评价每个特征,然后用这两个值共同选择有效的特征进行分类。实验结果表明,该算法可以选到有效的特征,用较少的特征保持最好的分类性能。在不同的分类器下,可以提高分类性能,尤其是少数类的准确率。(2)提出了一种基于多种群遗传算法的特征选择方法(MPCS),该算法将多种群遗传算法和代价敏感算法结合起来处理不平衡数据集分类问题,先用多种群遗传算法进行特征选择,然后使用代价敏感算法进行分类。实验结果表明,MPCS算法可以减少局部最优解的出现,找到更适合的特征组合,提升不平衡数据集上的分类性能。在低维数据上有时可以达到评价指标理论最高值,高维数据中此方法效果也优于其它方法。(3)基于MATLAB App Designer实现了一个基于特征选择的不平衡数据分类系统,供不平衡数据相关领域的实际应用和科学研究。该系统包含36个常用的数据集,也可以选用自己的数据集,预设的数据集特征数量各异,低维数据和高维数据均有;系统中有7个常用分类算法,以及7个特征选择算法。
其他文献
5G网络发生故障可能影响全网稳定性和服务质量,其故障发现与修复是5G网络运维管理的关键之一。基于历史故障发生前的网元关键绩效指标(Key Performance Indicator,KPI)变化以及设备告警信息、指标统计特征、自动异常检测、指标关联特征、告警编码特征等,提出了5G核心网网元多维特征融合故障预警方法,构建了多维特征空间训练故障预警模型。最后,针对现网运行数据,选取了6类网元并进行了实
图像的深度估计是计算机视觉领域一个重要的研究课题。挖掘二维图像中的深度信息,可以帮助计算机理解场景的三维结构,在智能机器人技术、虚拟现实、增强现实、场景的三维重建、汽车自动驾驶等众多领域都有广泛的应用。相较于基于双目、多目的深度估计方法,基于单目图像的深度估计对设备和环境要求较低且易于实现,因此具有更加广泛的应用价值。然而,只通过单个视角的二维图像估计三维的立体信息,从几何计算的角度来看是非常巨大
人们生活水平的提高以及商品的种类的增加,使得消费者对于商品的要求也越来越高。其中,琳琅满目的商品种类和对商品五花八门的描述,使得对于商品识别的研究也有了越来越重要的现实意义。本文基于深度学习的方法对商品图像识别以及商品图像中的文本识别进行了相关研究,与传统的图像识别以及文本识别算法对比,利用基于卷积神经网络的图像及文本识别算法进行分析,提出本文研究方法。1)为了降低噪声对图像识别准确率的影响,本文
深度学习在图像识别、机器视觉、自然语言处理等领域取得了巨大的成功,解决了很多复杂的难题,使人工智能技术取得了革命性的突破。然而,复杂的深度模型日益出现“膨胀”的趋势,模型越来越大、越来越复杂,对计算力要求也越来越高。如何有效地减少复杂模型的参数量和推理时间成为目前人工智能亟待解决的关键问题。特别是深度模型在在线学习、增量学习等实时应用与移动手机、可穿戴设备等这些边缘人工智能设备上的实施与部署,如何
计算机断层成像(Computed Tomography,CT)的出现,极大地促进了医学影像技术的发展,对于各种疾病的诊断治疗,也具有十分重要的意义。因X射线的辐射对人体有潜在的致病风险,因此低剂量CT成为了当前研究的重点。稀疏重建,即用从稀疏角度下采集的投影重建图像,是实现低剂量CT的有效方法,然而,经典的解析法稀疏重建的图像中一般含有严重的条状伪影,导致无法进行正确的疾病判读。2006年以来,深
传统监督学习方法需要利用大量有标记的样本进行学习,但是得到具有较强泛化能力的模型往往需要大量的标记样本。在许多学习任务中,标记样本的获取需要大量的人力物力,相对而言无标记样本的获取却较为容易。半监督学习正是一种综合利用标记样本和无标记样本进行学习的方法。目前,半监督深度学习中的研究热点之一集中在一致性假设的应用。所谓一致性假设,是指在模型训练过程对样本进行数据增强,并保证数据增强前后的模型预测结果
近年来,在机器学习等领域中,针对图像数据的分类识别已经成为广大研究者的重点关注问题。传统的算法大都基于欧氏空间计算样本相似性,虽然简单有效,但是由于没有考虑图像数据的高维、稀疏和流形等特性,无法准确地度量样本点之间的相似性。越来越来多的研究者基于黎曼流形的度量学习方法展开了大量的研究工作。流形假设是指人类所看到的数据为嵌入在高维空间中的低维流形。相对于传统算法而言,黎曼流形度量学习可以很好的利用样
近年来,随着人工智能的快速发展,智能解答类问题越来越受人瞩目,其中机器阅读理解成为该领域的重要研究分支。针对高考语文阅读理解任务,本文工作研究科技文中选择题的自动解答。该类型题目一般包含1篇背景材料、1个题干和4个候选选项,要求机器根据题干,基于对背景材料中相关内容的理解,从4个候选选项中选出一个正确选项。本文提出了一个基于关键词语义扩充的选择题解题模型,通过基于外部知识库的关键词语义扩充,丰富材
计算机断层成像(Computed Tomography,CT)作为辅助医生诊断的一项技术被广泛应用于医疗实践中,但是在其扫描过程中过高剂量的辐射会对患者的身体造成严重的伤害,增加患癌的风险。低剂量CT可以通过降低辐射剂量或者减少投影个数来实现。然而,每个角度下低剂量辐射所获取的投影噪声较大,致使重建出来的图像包含较大噪声,影响后续诊断。高精度低剂量CT重建的一种有效途径是除去低质量图像中存在的噪声
特征选择方法是指从数据的初始特征集中,根据一定的方法选择出符合某种标准的特征子集的方法。作为一种常见的数据预处理方法,特征选择是数据降维中一种重要的手段,在机器学习中数据降维处理发挥着重要的作用,其可以有效过滤数据中噪声,提升后续机器学习的效率。对于空间数据而言,传统的特征选择方法没有考虑到空间数据点之间的空间位置关系。通常空间数据都有着特定的空间分布特征,空间自相关性和空间异质性导致空间对象存在