基于聚类的朴素贝叶斯分类模型的研究与应用

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:yl723694886
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类是数据挖掘领域中重要的研究分支,国内外己经取得了令人瞩目的成就。朴素贝叶斯分类模型由于计算高效、精确度高,并具有坚实的理论基础而得到广泛的应用。然而,朴素贝叶斯分类模型的条件独立性假设和数据的完备性要求限制了对实际数据的应用。借鉴K-means算法,用朴素贝叶斯分类算法来解决分类问题,既能发挥K-means算法的局部搜索能力,又能提高朴素贝叶斯分类的准确度,从而更好地解决分类问题。主要工作如下: 1.介绍分析聚类分析中的k-means算法和朴素贝叶斯分类算法;阐述了朴素贝叶斯分类的理论基础;讨论几种常见的贝叶斯分类模型。 2.将聚类算法引入到朴素贝叶斯分类研究中,提出一种基于聚类的朴素贝叶斯分类算法(CNBC)。用k-means算法对原始数据中的完整数据子集进行聚类,计算缺失数据子集中的每条记录与k个簇重心之间的相似度,把记录赋给距离最近的一个簇,并用该簇相应的属性均值来填充该记录的缺失值,然后用朴素贝叶斯分类算法对处理后的数据集进行分类。实验结果表明,与朴素贝叶斯分类模型相比,基于聚类的朴素贝叶斯分类模型具有较高的分类准确率。 3.基于聚类的朴素贝叶斯分类模型在高校教学管理中的应用。通过用基于聚类的朴素贝叶斯分类算法建立大学生就业/考研预测模型,充分利用往届学生就业、考研的先验知识,指导学生根据自身的条件对以后的道路做出合理地选择。
其他文献
可信赖性已形成较为成熟的理论体系,是度量各种分布式系统服务质量的重要指标。随机Petri网(Stochastic Petri net,SPN)对系统的并发性、异步性和不确定性具有很强的动态分析
主观试题自动批改技术作为自然语言理解中重要课题之一,对于学生自侧作业、大规模在线考试方面具有非常重要的意义。目前针对客观题的自动批改技术己经相当成熟,但是,对于论述、
伴随着Internet的飞速发展,博客系统作为一种社会性软件,在互联网上得到了广泛的应用,同时Internet上的各类信息资源和博客用户群也在迅速激增,面对互联网上丰富的信息资源,
随着网络中多媒体业务和P2P业务的广泛应用,对网络流量识别与控制技术的研究已成为网络流量管理中的重要课题。网络流量控制是保证网络中关键业务正常运行的重要手段。网络流
计算机网络的复杂化和异构化要求网络管理系统能够提供更加智能、动态、高效率的网络控制能力。本文首先分析了网管技术和移动代理技术的研究现状、总结了当前网络管理系统在
运用计算机图形学及图象处理技术可以形象、直观地显示科学计算的中间结果及最终结果并进行交互处理,因而许多抽象的、难于理解的原理和规律变得更加容易理解了,许多冗长而枯
近年来,处理器的性能依然遵循摩尔定律不断提高,功耗也随之增加。各类便携智能终端和移动通讯设备迅速普及,人们对移动计算的要求越来越高。这些移动计算设备通常采用电池作为重
如今,Web成为了网络信息的主要平台,是人们获取知识的主要来源。但是,由于Web页面的无结构性、超链接的自由无序、以及Web内容的海量性、多样性和动态变化,人们从Web上搜索真正想
以Internet为主要标志的网络技术飞速发展,为人们的日常生活和社会生产的发展带来了巨大的便利。随着网络深入到社会生活的方方面面,网络信息安全的问题已经成为人们关注的焦
数据挖掘是近些年来发展起来的新技术,通过数据挖掘,人们可以发现数据背后隐藏的有价值的、潜在的知识,为科学地进行各种商业决策提供强有力的支持。当今,数据挖掘已发展成一