面向高度不平衡数据集的统计线性分类方法研究

来源 :华东理工大学 | 被引量 : 0次 | 上传用户:chenchengDelphi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
衡量分类器及其学习算法优劣的标准不能简单地采用分类精度等单一指标。现实生活中有大量不平衡数据集,包括样本数量不平衡和分布区域不平衡。在面对高度不平衡数据集时,常规算法往往会发生偏斜,造成分类结果不理想。在处理大样本和高维大样本数据集时,从降低时间复杂度和空间复杂度两方面考虑,线性分类器比较理想。  本文的主要工作如下:  (1)评价函数在算法构建、算法模型训练以及算法评估中的应用及选择。单一的评价指标往往不能做到全面衡量,尤其是面对高度不平衡数据集时,全面地评估有举足轻重的作用。  (2)对伪逆算法参数的分别训练。原始的伪逆算法采用一次性解析计算出所有分类参数。本文分别将其分解为投影方向和阈值两个参数进行不同的优化训练。  (3)期望输出对伪逆算法的影响分析。并提出了基于动态修改期望输出的一种伪逆的迭代模型。该算法具有良好的收敛性,能够解决线性可分问题,而不必担心过拟合问题。  (4)提出在算法训练过程中数据层面的分解,将算法关注点集中到模糊区域中,提升分类器性能。最终提出了最优阈值的迭代伪逆算法和最优阈值的Fisher算法。  为了防止一对多训练方法带来的不平衡因素,对多类分类问题采用一对一分解方法。本文提出的线性分类器优化算法能够解决高度不平衡困扰,在处理大规模数据样本时,能够迅速得出结果。此外,本文采用多种评价指标来衡量分类器性能,能够做到全面准确地评估。多种评价指标在不同的数据集中都显示出该优化算法的优越性。多个数据集上的实验证明,该算法具有良好的推广性。
其他文献
计算机数控技术是装备制造业的重要支撑技术。高档数控系统在可靠性、精度、速度、安全性等方面提出了更高的要求。任务同步是影响操作系统性能和实时性的重要方面。非阻塞同
随着当今世界逐渐从信息化转型为数据化,模式识别和数据挖掘等领域面临越来越大的挑战。爆炸式增长的数据量使得特征选择过程成为大数据模式识别等领域必不可少的环节。特征也
城市生活产生了很多轨迹数据,这些数据能够帮助认识身边的城市,了解人们的活动模式,为居民和政府提供准确的参考信息。群体行为涉及社会活动,交通规划,军事监督等领域,在很多的应用
随着网络信息的迅猛增长,人们希望海量文本能被标记上合适的词标签,即用一个或几个词对文本内容进行描述,这样可以极大地加快人们的浏览速度。而且,好的标签对于提高文本分类
学位
随着移动通信技术的飞速发展,移动设备逐渐成为人们获取信息的主要平台之一。然而,由于移动多媒体技术和移动信息承载、传输能力的提升,尤其是移动社交网络的兴起,大量丰富多
Due to the growth of internet media entertainment, video streaming has gained popularity in todays media streaming.An increased demand of both live and on deman
超声检测技术主要用于航空航天、高精密加工等领域的无损检测。其核心部分之一是缺陷识别,即采集到反射回波后,如何识别出是不是有缺陷,是何种缺陷等。特征的提取和特征向量的建
学位
在高度信息化的年代,视频作为最重要的信息承载媒介之一,日益深入地影响着人类的生产和生活方式。视频数据量的爆炸式增长,对现有信息传输和存储的效能不断地提出更高的要求,