【摘 要】
:
在数据挖掘和机器学习领域,大多数分类算法建立在各类数据分布平衡的假设之下,然而二类不平衡数据广泛地存在于人们的现实生活和实践生产中。在很多领域,研究不平衡数据具有
论文部分内容阅读
在数据挖掘和机器学习领域,大多数分类算法建立在各类数据分布平衡的假设之下,然而二类不平衡数据广泛地存在于人们的现实生活和实践生产中。在很多领域,研究不平衡数据具有重要的商业价值和应用价值。传统的分类学习算法在类分布均衡的假设下以寻求数据集总体分类准确率最大为目标,这并不适合不平衡数据集的学习。目前解决不平衡分类问题的方法大致可以分为两类,即数据层面上的采样方法和算法层面上的方法。采样方法在不平衡数据集学习上的作用是通过改变数据分布实现的。之前的研究成果表明,对于一些通用的分类器来说,在平衡数据集上所取得的分类性能要好于在不平衡数据集上所取得的分类性能。这些实验性的研究为采样方法应用于不平衡数据学习提供了契机。本文首先研究上采样技术对不平衡数据分类学习的作用和影响。在调研了现有的比较流行的上采样技术的特点之后,运用最大间隔理论的方法分析上采样技术的优缺点,在此基础之上提出了基于最大化间隔的上采样算法MSYN。为了减少基于MSYN采样技术偏置于最近邻规则对分类性能的影响,本文进一步提出了一种分类器假设间隔的近似计算方法,在此基础之上对上采样技术进行改进和扩展,提出了EMSYN采样技术。实验验证了使用最大间隔准则分析上采样技术的有效性。在算法层次上,处理不平衡数据集,用分类错误率度量标准是不合适的,ROC曲线下面积(AUC)则是一个有效的度量分类器性能的标准。本文研究以优化AUC为目标的线性模型在不平衡数据集上的性能并对原有模型进行了两处修改,提出扩展最大化AUC线性分类算器(EMALC)。实验表明提出的新方法对原有模型有显著的改进。
其他文献
目前对棉与再生纤维素纤维混纺织物的定量方法有两种,40℃(2.5 h)甲酸-氯化锌法费时费力,而70℃(20 min)甲酸-氯化锌法对棉的损伤较大,针对这一情况,本文提出改进研究。结果表明:使用7
从体能概念的重要性入手,研究体能训练的种类以及特点,以突出体能训练在篮球训练中的重要意义。
Starting with the importance of physical concept, this paper studies t
2000年以来人民银行主导建立或倡导开展的支付结算创新对我国当代支付环境质量的改善和提升起着积极的甚至是基石性的作用,但有些系统的开发及应用达不到当初设想的效果,央行
改革开放30多年来,中国经济飞速发展,即使在2008年金融危机的冲击下,仍然保持了较高的经济增长率,并率先走出经济危机的影响实现复苏。2010年,中国GDP增长率为10.3%,经济总量
首先介绍了核电站延寿的概念、基本流程和基本要素;然后,采用逻辑推理和对比的研究方法,总结归纳了世界核电站延寿的总体情况;接着,针对世界各个主要核大国:美国、法国、德国
在信息化社会中,为适应新形势下汉语国际教育快速发展的需要,研究对外汉语教学中的教育技术理论与实践问题是十分必要的。本文是一项基于文献分析的研究:将近年同期汉语教育
次债危机之后的中国经济出现了周期性通货膨胀的特征,菲利普斯曲线已不局限于对通货膨胀和失业之间关系的解释,在目前经济形式复杂的中国如何使用菲利普斯曲线来解释通货膨胀
汉语疑问代词在一定的语义和句法条件下可表虚指,展示句法-语义界面特征。根据界面假说的预测,该界面可以习得。本文通过可接受性判断测试,考察了65名母语为泰语的学习者对汉
利用羊毛和丝在甲酸/氯化锌溶液中溶解性能不同的原理,用甲酸/氯化锌溶液溶解已知混纺织物中的丝纤维,通过试验得出了羊毛与桑蚕丝混纺产品定量分析的甲酸/氯化锌溶液溶解浓
教育生态学作为教育学和生态学相互渗透的结果,是将生态学应用于教育领域产生的一门分支学科。它是根据生态学的原理,特别是生态系统、生态平衡、结构与功能的统一等原理与机