论文部分内容阅读
分类是数据挖掘领域中重要的研究分支,国内外己经取得了令人瞩目的成就。朴素贝叶斯分类模型由于计算高效、精确度高,并具有坚实的理论基础而得到广泛的应用。然而,朴素贝叶斯分类模型的条件独立性假设和数据的完备性要求限制了对实际数据的应用。借鉴K-means算法,用朴素贝叶斯分类算法来解决分类问题,既能发挥K-means算法的局部搜索能力,又能提高朴素贝叶斯分类的准确度,从而更好地解决分类问题。主要工作如下: 1.介绍分析聚类分析中的k-means算法和朴素贝叶斯分类算法;阐述了朴素贝叶斯分类的理论基础;讨论几种常见的贝叶斯分类模型。 2.将聚类算法引入到朴素贝叶斯分类研究中,提出一种基于聚类的朴素贝叶斯分类算法(CNBC)。用k-means算法对原始数据中的完整数据子集进行聚类,计算缺失数据子集中的每条记录与k个簇重心之间的相似度,把记录赋给距离最近的一个簇,并用该簇相应的属性均值来填充该记录的缺失值,然后用朴素贝叶斯分类算法对处理后的数据集进行分类。实验结果表明,与朴素贝叶斯分类模型相比,基于聚类的朴素贝叶斯分类模型具有较高的分类准确率。 3.基于聚类的朴素贝叶斯分类模型在高校教学管理中的应用。通过用基于聚类的朴素贝叶斯分类算法建立大学生就业/考研预测模型,充分利用往届学生就业、考研的先验知识,指导学生根据自身的条件对以后的道路做出合理地选择。