论文部分内容阅读
贝叶斯分类属于数据挖掘领域重要的分类方法之一,朴素贝叶斯分类是一种简单的贝叶斯分类方法,与其它分类方法相比,它的优点是简单、高速、分类效果稳定和理论基础坚实,因此也得到了广泛的应用。但是朴素贝叶斯模型假定在给定分类特征条件下属性间是相互独立的,而这个假定在实际应用中往往是不成立的,这就给朴素贝叶斯方法带来了局限性。为此,很多学者试图通过放松属性间的独立性假设来提高朴素贝叶斯分类器的性能,其中属性加权和属性选择是两种比较好的方法。本文正是从属性加权和属性选择两个方面改进朴素贝叶斯分类模型。主要的研究工作包括:(1)从属性加权方面改进朴素贝叶斯分类,详细介绍了属性加权朴素贝叶斯分类的基本原理,深入分析了引入属性权值后对于分类结果的影响,介绍了一种称为相关概率法的确定属性权值的方法,并按照该方法构造了一个加权朴素贝叶斯分类器WNBC。(2)从属性选择方面改进朴素贝叶斯分类,深入分析了两种不同的属性选择方法,分别是属性相关性度量法和包装法。关于属性相关性度量法,介绍了一种基于x~2统计量法的属性选择算法,并按照该方法构造了一个选择性朴素贝叶斯分类器RNBC;关于包装法,研究了包装法选择属性的具体过程,包装法实现时需要注意的各个方面,然后基于包装法构造了一个选择性朴素贝叶斯分类器SNBC。(3)提出将两种方法相结合的进一步改进的NBC模型WRNBC和WRSNBC。WRNBC模型将属性加权和基于属性相关性度量的属性选择方法结合,首先通过x~2统计量法得到最优属性约简子集,然后在该子集上构造加权NBC模型;WRSNBC模型将属性加权和两种不同的属性选择方法结合,首先通x~2统计量法得到最优属性约简子集,然后在该子集上使用加权NBC模型运行包装法进一步对属性进行选择,最后在得到的属性子集上构造加权NBC模型。