论文部分内容阅读
随着信息技术的迅猛发展以及海量数据的大量涌现,多维分类问题成为数据挖掘领域的一个研究热点.本文正是围绕多维分类问题而展开研究的.贝叶斯网络是一种概率图模型,常用于不确定性领域和数据挖掘领域等.本文是基于贝叶斯网络来建立分类模型来解决多维分类问题的,主要工作如下:首先,分析了贝叶斯链分类器处理多维分类问题的有效性及可行性,改进最初的贝叶斯链分类器.对类变量分别利用K2算法和爬山算法学习得到一般的贝叶斯网络来表示类变量之间的依赖关系,再以学得的贝叶斯网络为框架建立链分类器.为了简化模型,采取一种快速、有效的属性选择方法进行属性选择,去除属性变量中可能的无关属性和冗余属性,且使得处理后的属性变量相互独立.由此,得到一个结构简单且分类性能良好的贝叶斯链分类模型.然后,就多维分类问题而言,随着变量个数增加,特别是类变量个数的增多,链式分类模型的结构学习和推理的计算复杂度也将非常高.本文将聚类方法引入到多维分类问题中,提出一种基于聚类的多维分类模型来解决该分类问题.该方法先用可视化评估算法对类变量进行聚类,得到若干个独立的类簇,再对每一个簇建立独立的贝叶斯(链)分类器.该方法在学习过程中,采用改进的基于相关性的属性选择方法对每一个类变量进行属性选择得到相对应的属性子集,最后将所建的独立的分类器进行组合起来得到所学的分类模型.最后,在三个常用的数据集上进行实验仿真,实验结果表明本文所建分类模型不但结构简单,而且分类性能优良.