不确定数据和代价敏感学习研究

来源 :西北农林科技大学 | 被引量 : 0次 | 上传用户:xunmengya
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的数据分类算法需要处理的数据是确定且精确的,然而在现实世界中,由于隐私保护,不精确测量,重复抽样,值缺失等原因,数据普遍存在不确定性。直接使用传统分类算法对不确定数据进行分类效果很差,不能满足应用要求,这使得专门针对不确定数据挖掘技术的研究十分必要。代价敏感学习是一个具有重要意义的研究方向,其充分考虑了各类错误分类的代价差异,通过引入代价概念,使得分类器以最小化代价为目标,有效避免了传统分类器仅关注分类准确率的不足。在很多领域,代价敏感学习模型更符合现实应用需求。本课题以不确定数据和代价敏感学习为研究对象,围绕着如何对不确定数据流进行分类分析,如何提出性能更优的代价敏感算法以及如何对不确定数据进行代价敏感学习等几方面展开研究。主要成果包括:(1)提出了一种针对属性不确定的数据流进行分类学习的集成分类算法EDTU。首先,文中基于不确定决策树算法DTU构建了基分类器。然后,为解决基分类器算法效率不高,不能实时的处理数据流的问题,采用了快速构建决策树的方法来改造基分类器。最后,通过动态集成的方式,构建了一个分类器集合,通过在相似样本上的分类准确率来调整分类器权重,并完成分类器的淘汰与更新。实验结果表明,算法能有效的处理不确定数据流的分类问题,并且在不同参数下表现稳定。(2)提出了一种结合贝叶斯和决策树来进行代价敏感学习的算法CS-NBT。首先,文中定义了误分类代价期望,设计了最小化误分类代价期望的属性选择策略,并根据该策略构建了以最小化误分类代价期望为目的的决策树。然后,在所构建决策树的每个叶子节点上学习贝叶斯分类器,通过结合类别概率与代价矩阵,将选择类别概率最大的问题转换为选择类别代价最小的问题,从而使叶子节点中的贝叶斯分类器代价敏感化。相比起现有基于决策树或贝叶斯的代价敏感学习算法,CS-NBT结合了决策树和贝叶斯的优点,利用了代价敏感决策树的结构能够有效的分裂数据,同时,也通过叶子节点处的贝叶斯分类器利用了那些没有出现在树的路径上的属性所携带的信息。实验结果表明,CS-NBT算法展现了优秀的性能,与CSTree、MetaCost和NBT相比,CS-NBT性能稳定,有效的降低了总代价,并且在不同的参数设定下,算法表现良好。(3)提出了弱化贝叶斯假设的代价敏感学习算法CS_ANDE。首先,结合贝叶斯定理和代价矩阵定义了代价期望,将分类中的最大化可能类别问题转化为最小化期望代价问题。其次,通过假设某些特殊属性不独立,而其它属性相互独立,形成了一个较弱的条件独立假设。然后为减少特定的特殊属性带来的偶然性,将属性集中的每个属性都选取为一次特殊属性并求这些值的均值。最后通过使用MetaCost框架,学习对应的代价敏感分类器。CS_AODE与CS_A2DE的不同在于,在CS_AODE只假设一个属性是特殊属性,而在CS_A2DE中则假设两个属性是特殊属性。实验结果表明CS_AODE和CS_A2DE算法在处理代价敏感学习时展现了优秀的性能,有效的降低了代价,并且在不同参数设定下,算法表现良好。(4)提出了基于决策树的代价敏感不确定分类算法CS-DTU。首先,基于概率势的概念定义了代价增益,通过代价增益来表示属性分裂前后代价的改变。其次,设计了使总代价最小化的属性选择方式,并以该方式建立了代价敏感决策树。然后,采用了不确定决策树中的分类方法来分类新样本。实验结果表明,CS-DTU算法能有效的处理不确定数据的代价敏感分类问题,并且在不确定率变化和代价矩阵变化时表现稳定。(5)提出了基于贝叶斯的代价敏感不确定分类算法CS-UNB。首先,通过结合类别概率与代价矩阵,定义误分类代价期望。然后通过选择不同属性进行测试导致的误分类代价期望的变化,依次选择需要进行测试的属性,其中,不确定信息使用概率势的方法进行处理,最后给出相应算法的详细步骤。然后,对CS-UNB进行扩展,提出了相应的单批测算法SBT-CSUNB。采用贪心算法的思想,找出所有对总代价下降正相关的属性,作为需要进行测试的属性集合。实验结果表明,CS-UNB算法和SBT-CSUNB算法都很强的从不确定数据学习代价敏感分类器的能力,在不确定率和代价矩阵变化时,算法都表现良好,且SBT-CSUNB算法展现了更好的稳定性。
其他文献
卫生行政法律法规中关于违法所得的认定,在实践中存有争议。本文解析了深圳市L区卫生监督所承办的“左某非医师行医案”,厘清了何为违法所得及其与没收违法所得的关系,为今后
文章讨论了虚拟实训教学环境下的教学交互研究现状,阐述了相关研究的重要性,提出了虚拟实训教学交互研究中迫切需要解决的3个问题。
在传统仲裁协议签定过程中.由于双方可以通过多种方式和手段对对方的年龄或民事行为能力等有认知。而在匿名或身份虚拟化、数字化的网络空间进行交易时.当事人往往无从获知对方
随着互联网的普及和检索技术的发展,信息检索的研究范畴已经远远超出了传统的文档检索,实体检索目前已成为信息检索研究领域的新焦点。给定用户的信息需求,该技术旨在检索特
高原鼠兔是青藏高原以及邻近地区的主要生物灾害之一,要对高原鼠兔进行防治,就需要对高原鼠兔的数量、危害程度以及行为方式等进行调查研究。借助视频记录对高原鼠兔行为进行
目的:探讨妇科卵巢囊肿患者行腹腔镜手术的术前、术后护理效果。方法:整理收治的148名卵巢囊肿患者行腹腔镜手术的术前、术后护理资料,归纳总结妇科卵巢囊肿患者行腹腔镜手术的
光学三维测量技术是物体形貌测量的重要手段,动态、高精度相位测量技术成为当今国内外研究的热门课题。本文发展一种光纤干涉条纹投射三维形貌测量方法,利用马赫-泽德干涉结
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
期刊