论文部分内容阅读
朴素贝叶斯分类器(Na ve Bayes)是一种简单高效的分类器,在很多情况下能够取得和一些复杂分类器相当的分类精度。但由于其所依赖的属性独立性假设在真实问题中往往并不成立,为此,围绕如何放松独立性假设,又能取得较好的分类效果,是提高朴素贝叶斯分类的关键因素。其中对分类属性恰当的筛选,可以很好地提高分类器的分类效果,本文提出两种属性选择的方法能有效的提高分类的效果,主要内容和创新点如下:1.文章提出一种基于偏最小二乘法的朴素贝叶斯分类属性选择算法。通过建立条件属性间的偏最小二乘回归方程,得到一个由回归系数组成的矩阵。归一化后对每个属性和其他属性间的相关性求和,和值就是该属性的相关度。相关度越大,该属性就越差。2.用偏最小二乘法相关性分析选取属性可以得到各属性间的相关性,但是各属性分类的优差还无从判断。这里提出一种基于属性取值区间关系的属性提取方法。在朴素贝叶斯模型中同一属性的不同类别所在的取值区间是不同的,如果太接近就说明该属性不能区分这两个类别。依此统计出该属性不能区分的类别个数。个数越少,说明该属性分类效果越好。3.提出一种基于概率的加权朴素贝叶斯分类算法,通过对每个属性做朴素贝叶斯分类得到该属性分类正确的概率,把该概率作为相应的权重,分别加在条件属性上,得到加权后的朴素贝叶斯分类器。4.本文将以上三种方法综合起来,以神经元的数据为例,对其选择属性,加权后得到了比较理想的结果,交叉检验的分类正确率比没有选择属性时提高了16%,以Weka的数据集,并用同样的属性来分类,加权后的分类器比没加权时都有所提高。