数据挖掘不平衡分类中的特征选择技术研究

来源 :浙江工业大学 | 被引量 : 0次 | 上传用户:siyuezaici
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘和机器学习是目前最热门的领域之一,如何进行快速高效的数据挖掘,从中获得有价值的信息就显得尤为重要。其中分类问题是一个很重要的研究课题,传统的分类算法虽然得到了较好的应用,但是其算法大部分都是建立在数据集分布均匀的条件下,一旦出现不平衡数据时,这些算法的分类效果将会大打折扣。  针对不平衡数据分类问题,特征选择方法可以用来筛选出有价值的特征,有助于分类器的分类预测。本文分析和讨论了结构化不平衡数据集和非结构化不平衡数据集中的数据分布及特征分布,并基于这两类不平衡数据集展开研究并设计了不同的特征选择算法。实验结果表明,所设计的特征选择算法能有效提高不平衡数据的分类性能,尤其是少数类的分类性能。  本文的主要研究工作包括:  (1)分析了结构化不平衡数据集和非结构化不平衡数据集中的数据分布及特征分布,讨论了一些常用的特征选择算法的性能优劣;  (2)针对结构化不平衡数据集,提出并设计了一种基于特征选择的改进型不平衡分类提升算法,从数据集的不同类型特征来权衡对少数类样本的重要性,筛选出对有效预测分类出少数类样本更有意义的特征,实验结果表明该算法能有效的提高不平衡数据分类的性能指标。  (3)针对非结构化不平衡数据集,在分析数据集特点的基础上改进原始特征选择算法,提出并设计了一种更适用于非结构化不平衡数据集的特征选择算法,实验结果表明该算法能有效的提高不平衡数据分类的性能指标。  (4)对上述算法进行了代码实现和实际分类效果的性能验证分析。
其他文献
Cu(In,Ga)Se2(CIGS)是一种直接带隙材料,光吸收系数高达105数量级,是目前己知的光吸收性最好的半导体薄膜材料。利用一步法电沉积制备CIGS薄膜,设备投资少,可连续、大面积的沉积,
信息的有效采集与科学准确的数据重构是物联网前端传感层(简称WSN)的一项核心技术,同时也是具体物联网建设中,在节点硬件资源有限的条件下,实现大规模数据的有效采集、精简传输
码分多址技术具有容量大、覆盖范围广、功耗小等突出优点,但是所使用的扩频码一般非严格正交,非零互相关系数的存在会引起用户间的相互干扰,这些干扰分为小区内干扰和小区间
视频序列中目标跟踪是计算机视觉研究中的一个热点问题,它在医学诊断、天气情况分析、视频智能监控、视觉导航、军事制导等多方面都有非常好的前景应用。如何快速,准确的检测
信号稀疏分解以其简洁、稀疏、灵活的优良特性成功的应用到信号处理的诸多方面中,成为信号处理研究的热点之一。匹配追踪算法实现简单、便于理解,在稀疏分解诸算法中算法复杂度
直接序列扩频(Direct Sequence Spread Spectrum,DSSS)通信系统因其较强的抗干扰能力、低截获概率和良好的保密性等优点,在军事与民用领域中被大范围的付之实用。也正是由于其将
随着无线电技术的发展与应用,目前广泛使用的基于授权的固定频谱使用方式使得频谱使用效率变得较低。认知无线电被视为一种新型的技术用于提高目前频谱资源的使用效率。  
随着无线通信产业的迅速发展,用户对电话会议等更高传输速率数据业务的需求越来越迫切,原有的通信系统已经难以满足这样高数据传输率的性能要求。正交频分复用(OFDM)技术可以
随着社会信息化进程的加快,个人移动通信日益受到人们的青睐。现有的第二代移动通信网,无论在频谱资源,还是在移动业务方面都不能满足人们的日益增长的需求。在这种情况下,智
随着无线传感网络应用复杂度的增加,应用程序代码的尺寸也逐步增大,这就需要巨大的存储空间,从而导致系统功耗的进一步增加。为了延长无线传感器网络的生命周期,必须降低无线传感