不平衡小样本数据的特征提取与分类方法研究

被引量 : 0次 | 上传用户:angus000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着机器学习和数据挖掘等应用领域的扩展,人们遇到越来越多的不平衡小样本数据。所谓的不平衡小样本数据是指相对样本维度而言,样本数目过少,而且不同类别的样本数目及分布相差很多。高维小样本数据给传统的机器学习算法带来很大的挑战,模型建立所需的时间和空间资源要求很高。此外样本的不平衡性给传统模式识别算法也带来了很大的困难。传统的学习算法都是建立在平衡数据集的基础之上的,当样本出现不平衡时,这些学习算法的性能往往会明显下降。本文主要针对样本出现不平衡性和小样本性的学习问题展开研究:首先,对于小样本数据本文采用经典的特征提取算法先对数据进行特征提取,将维度降低。对于特征提取算法某些参数的设置问题,本文摒弃现有的根据经验值设定的方法,引入粒子群优化算法来实现对参数的自动寻优。特征提取算法往往有线性、非线性、有监督和无监督之分,本文提出在决策级将不同的特征提取算法进行融合,充分利用各特征提取算法的优点,扬长避短。对于特征提取算法的评估方法,本文采用特征提取结果在支持向量机分类器上获得的识别率作为评估算法的指标。然后,在数据层面上对不平衡数据集进行平衡化处理,包含对正例样本的过抽样处理以及对负例样本的欠抽样处理。利用改进的SMOTE算法对正例样本进行过抽样处理,人工注入样本使得正例样本的数目增加。在负例样本的欠抽样处理中,本文将谱聚类算法引入其中,选取负例样本的子集以使数据集在正负例样本的数目上趋于平衡。最后,在算法层面上对样本的不平衡性进行处理,通过引入基于权重的支持向量机和AdaBoost算法对分类算法进行改进。算法训练出多个基分类器,然后将多个基分类器组合成强分类器。对于不平衡数据集上建立的分类器的性能度量指标,本文不采用通常的识别率作为算法的性能度量值,而是采用ROC曲线下方的面积AUC值,以兼顾正负例样本的分类效果。这样,通过数据层面和算法层面的双重处理,就可以应用传统的学习方法来对不平衡数据集进行挖掘有用信息并加以分析。此外,处理过的不平衡小样本数据集能够利用较少的时间和空间建立模型。最后,在UCI公共数据集和人工数据集上分别对文中算法的有效性进行了验证。本文的方法能在一定程度上解决小样本性和不平衡性给传统的机器学习算法带来的困难。除此之外,本文中特征提取算法的参数优化方法对于更好地挖掘原数据中的信息具有重要意义。
其他文献
本文旨在研究上转换发光材料、TiO2与上转换发光材料复合物的制备,以达到扩大TiO2光响应范围,从而提高其可见光催化活性的目的。全文共分为五章。第一章和第五章分别为背景介绍
根据知情交易者和未知情交易者行为,构建了交易者序贯交易过程.据此,建立单纯利用股票交易数据,在指 令驱动系统下中国股市知情交易概率测定模型.
目的将人生长抑素受体2亚型(hSSTR2)基因转染至该受体表达阴性的肿瘤细胞,研究125I-伐普肽(RC-160)与其结合的规律,以及131I-RC-160对转染肿瘤细胞的杀伤作用,并进行该受体介
以热挤压态镍基粉末冶金高温合金FGH96为研究对象,研究该合金横向(垂直于挤压方向)和纵向(沿挤压方向)试样的显微组织及力学性能,分析断裂机制和变形后的显微组织。结果表明:FGH96
电液伺服阀作为电液伺服系统的关键元件,广泛应用于航空航天很多要求快速精确反应并且功率大的控制场合。伺服阀中精密部件加工和装配对于伺服阀的性能指标影响很大,其中功率级
可靠性、经济性和环保性是民用飞机设计必须考虑的运营要求,通过系统研究签派可靠度估算模型、全寿命周期成本和碳排放量模型,构成多目标函数。同时,根据民用飞机实际运营中
公众参与地方政府绩效评估是一种发展趋势,丰富了政府绩效评估的内涵。党的第十七次代表大会明确了各层次、各领域扩大公民有序的政治参与,加快行政管理体制,建设服务型政府。在
聚苯硫醚/聚四氟乙烯(PPS/PTFE)高温过滤材料被广泛应用于工业除尘领域,但目前的检测方法并不适用于对该滤料成分的定量分析。利用差示扫描量热技术,对PPS、PTFE及其复合材料
基于社会工作实务操作取向,伴随我校应用型名校建设工程,结合农业院校的特点,社会工作专业在保证理论教学的同时,积极探索实践教学模式,取得了一定的成果。