关联分类改进及不平衡数据分类算法研究

来源 :闽南师范大学 | 被引量 : 0次 | 上传用户:kinganguo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类是数据挖掘领域的一项重要任务,它是学习出分类器模型并预测未知实例的类标号的技术。关联分类是一种具有规则多和分类精度较高的分类算法。基于支持度和置信度是目前关联分类算法中最为经典的一种框架,然而这种关联分类无法很好度量项集与类的关系,也没有考虑训练集中各类所占比例关系,导致在数据集类分布不均情况下分类效果并不理想。此外,不平衡数据的分类今年来已成为研究热点问题。在不平衡数据集中,某一类的样本数远小于其它类的样本数,而传统的分类技术是以寻求整体分类精度的最大化为目标,导致对小类样本的预测往往出现误判。但在现实实践中,小类往往具有更高的应用价值,错分小类具有很高的代价。因此,在不平衡数据分类问题中,提高对小类样本的辨识能力而没有以牺牲大类样本的准确率为代价,是具有极大挑战性的。针对关联分类和不平衡数据分类的这两个问题,本文的研究工作主要如下:首先,提出了基于支持度和增比率的改进分类算法ACSER。ACSER是对经典的基于支持度和置信度的关联分类算法进行改进,提取频繁项集增比模式作为候选分类规则集。同时,利用综合考虑多因素的规则强度度量对规则集排序和剪枝,使规则的优先级较合理,最终提高了分类准确率。其次,提出了基于自适应实例权重的在不平衡数据上的新关联分类算法ACIW。ACIW根据原始不平衡训练集中的每条小类例子到大类例子的距离远近,依次自动地增加各小类例子的权重,使越难学习的小类样本获得越高的权重值。对赋权训练集,采用改进关联算法ACSER进行学习,并构建分类器。实验结果显示,ACIW不仅有效提高了小类规则的数量和优先级,而且在保持较高整体分类精度情况下显著提高了对小类样例的识别率。最后,提出了基于自适应合成过采样在不平衡数据集上的集成学习算法ASMOTE-Boost。该算法先通过k-近邻方法找到噪声点,将其删除。再充分考虑数据的样本分布特点,根据小类样本难易学习程度决定自适应合成倍率,越难学习的合成率越大。通过F-measure和G-mean等度量的大量实验验证,表明本文的自适应合成过采样方法与集成学习Boosting相结合处理不平衡数据分类问题的有效性。
其他文献
溢油事故的频繁发生,严重威胁着沿海城市生态、环境、经济的可持续发展,并日益受到国际社会的重视。溢油事件发生后,为了积极有效地采取相应的应急措施,有必要掌握溢油的位置、分布范围和溢油量等信息,而溢油图像目标的边缘提取是估算溢油分布范围和溢油量准确与否的关键。目前,利用航空并结合卫星遥感方法监测海洋溢油污染仍是大多数国家普遍使用的方法。合成孔径雷达(SAR),由于其不受天气条件的影响,在海上溢油监测中
以计算机为工具,对DNA序列数据进行储存、检索、分析是生物信息学(Bioinformatics)的基本内容。它是当今生命科学和自然科学的重大前沿领域之一。近年来,随着世界各国对不同物
无线传感器网络的节点具有能量有限的特点,因此能耗问题是各层协议研究的重要方面。周期性地调度节点进入睡眠状态,是目前认为节省电量的有效方法之一。虽然睡眠调度能够降低
学位
常规的监督分类算法需要有大量的有标签数据才能构建出很好的分类模型,从而获得比较好的分类效果,但是现实中的情况往往难以满足这个条件,因此能够挖掘未标签数据中所包含的
随着手机的日益普及和智能化,人们对于移动终端的各种应用的热情也越来越高。越来越多的移动终端及其相关的产品极大的丰富和改善了人们的生活。CMMB多媒体广播电视正式在这
随着网络技术特别是Internet技术的发展和普及,基于Web的网络教学已经成为教学的重要方式和发展方向。作为一种新的教学模式,网络辅助教学能充分发挥信息技术在高校教学中的优
随着计算机动画的发展,互联网环境下的三维应用取代二维应用是一个必然的趋势。与传统的互联网应用相比,三维互联网应用能更直观、真实地展现给用户,带给用户更生动、丰富的
油脂是人类赖于生存的重要的物质基础。不法商贩为了谋求利润,向食用植物油中添加矿物质油,或者使用潲水油,从而导致食用油中毒的事件屡见不鲜。因此,如何快速准确的对食用植
学位
人脸姿态识别是计算机视觉领域和人脸识别领域的一个重要研究方向,是人脸识别系统中至关重要的一步,具有广泛的应用价值和良好的市场前景。当前,国内外对于人脸姿态识别的研
进化算法具有自适应、自组织、自学习、并行性、普遍适用性等特点,已被广泛应用于解决科学和工程领域的复杂优化问题。差分进化(Differential Evolution,DE)算法是一种基于群