不平衡数据分类的类依赖属性加权朴素贝叶斯算法改进

来源 :应用数学 | 被引量 : 0次 | 上传用户:xll526
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
朴素贝叶斯分类器(Naive Bayes,NB)是一种简单而有效的分类器,特别适用于中小规模数据分类.但作为以整体分类正确率为指导的传统分类方法,它在不平衡数据分类中对少数类的分类能力较弱.针对此问题,本文采用属性加权的方法增强朴素贝叶斯对于少数类的分类能力.类依赖属性加权朴素贝叶斯(class-specific attribute weighted naive Bayes,CAWNB)是一种有效的属性加权朴素贝叶斯算法.本文通过在条件对数似然(conditional log-likelihood,CLL)和均方差(mean squared error,MSE)目标函数中引入平衡系数λ,提出了两个新的目标函数λ-CLL和λ-MSE,并进一步提出了通过最大化λ-CLL或最小化λ-MSE确定最优权重值的两个不平衡数据分类算法CAWNBλ-CCL和CAWNBλ-MsE.在不平衡的UCI数据集上的实验表明,这样的属性加权可以增强朴素贝叶斯对于少数类的分类能力,同时不会过分破坏其的总体分类能力.
其他文献
作为DNA合成的重要前体,细胞中4种脱氧核糖核苷三磷酸(dATP、dTTP、dGTP和dCTP)是DNA复制、重组和修复所必需的原材料,而DNA的正确合成及其完整性则是基因组稳定性的重要体现,因此dNTP库状态的稳定对维持基因组的稳定进而保证细胞的稳定至关重要.从dNTP库的质量上讲,一些异质dNTP如氧化的dNTP掺入DNA容易引发碱基替换甚至DNA断裂重排,会极大地损害基因组的稳定性.但与此同时,细胞也进化出了相应的NTP焦磷酸酶将其清除,并且细胞也会通过形成DNA损伤修复网络来校正损伤的DNA及修复