论文部分内容阅读
分类是数据挖掘中的一个重要研究课题。它的目标是构造一个分类器,对由属性集描述的实例指定最适合的类标签。许多分类方法和技术用于构造分类模型,其中贝叶斯方法由于具有坚实的数学理论基础以及综合先验信息和数据样本信息的能力,使其成为当前数据挖掘的研究热点之一。基于贝叶斯理论的分类,主要由两个分支构成,一个是朴素贝叶斯分类器,另一个方向是贝叶斯网络。 由于算法简单性和计算的有效性,朴素贝叶斯分类器在分类方法当中一直是研究的重点。传统的朴素贝叶斯分类器有着很强的假设,即假设各个属性之间是相互独立的。但是现实当中并非如此,这在一定程度上影响了分类器的分类性能。 本文通过对几种贝叶斯分类模型的学习,分析了各自的特点,为了充分利用朴素贝叶斯模型(NBC)的优势及其在分类中的分类效果,就其严格的独立性假设的限制,提出一些改进,取得了比较好的分类效果。 第一章 绪论 主要概述了数据挖掘和知识发现相关概念,包括数据挖掘的挖掘过程,数据挖掘的功能,介绍了数据挖掘及其研究对象的发展现状和未来趋势,详细阐述了数据挖掘中分类问题的定义、方法以及分类模型评价的标准等。 第二章 本章主要对基于贝叶斯技术的分类问题做了概述性介绍:首先介绍了贝叶斯理论的基本知识。接下来主要介绍了几种贝叶斯分类模型:朴素贝叶斯分类器,贝叶斯网络分类器,增量贝叶斯分类模型等,并对其特点进行分析。目的是从多角度看贝叶斯分类,拓宽思维。 第三章 本章主要介绍Rough集的基本理论。首先介绍了粗糙集合、知识化简、知识的依赖性等基本概念,然后介绍了Rough集在理论与应用方面的研究现状等,接着就粗糙集相关的有效算法进行探讨。 第四章 我们先后比较了几种不同的朴素贝叶斯的扩张模型,探讨了如何更好地改进朴素贝叶斯分类,提出了一种贝叶斯分类模型,试图对由属性的各种组合进行遍历,通过计算,挑选出对其他属性具有很强影响的属性。由于受条件互信息值θ和预先设定强属性的个数D的作用,将会构造出若干个不同结构的分类器。将它们看作是一组基本分类器,依次利用训练集训练每个基本分类器,生