论文部分内容阅读
近年来,随着互联网等科学技术的飞速发展,在社会调研、基因生命科学等领域每天都会收集到海量的数据,如何从如此多的数据中提取出有用的信息已经成为人们面临的新挑战。在这种需求下,数据挖掘技术应用而生。分类作为数据挖掘技术的一个重要分支,在图像分类、行为模式识别等领域中有着极其重要的应用。目前,如何利用已知样本的信息来有效分类的研究与应用已经引起了学术界的关注。但是随着数据维数的增大,甚至出现维数p大于训练样本的个数n的现象,现在人们称之为“大p小n”,使得之前的一些经典的判别方法如距离判别、Bayes判别、Fisher判别已经不再适用,因此需要学者更深入的理论分析。事实上,关于高维稀疏数据的判别方法也已经有很多,例如独立判别法(IR)、 Feature Annealed Independence Rule (FAIR)、Nearest Shrunken Centriods Classifier (NSCC)等。这些判别方法都是在Bayes判别法基础上改进了参数估计的方法或者加入了t-检验统计量进行变量选择。然而,这些方法在估计总体协方差矩阵时只使用了特性方差的信息,忽略了特性间的相关性,使得判别效果在一些情况下不理想。本文主要利用基于截断协方差矩阵的方法,对高维稀疏数据进行分类研究。首先,将经典的Bayes判别与截断协方差矩阵的方法相结合,提出了一种新的基于截断协方差矩阵的高维稀疏数据的判别分析方法:利用高维协方差矩阵的稀疏性,使用硬阀值对样本协方差矩阵进行截断,这样不仅考虑了所有特性的方差,还考虑了相关性较大的特性间的协方差、将相关性较小或者为零的忽略,使得协方差矩阵估计与真实值更接近,从而提高判别效果。然后,从理论上给出了截断协方差矩阵判别方法错判率,同时利用数值实验加以验证。实验过程中,利用5-fold Cross-Validation准则,选择使得错判比例的平均值最小的截断阀值作为硬阀值。一方面对来自三种不同形式协方差矩阵的模拟数据进行判别分析,同时又与其他判别方法(Bayes判别法和独立判别法)比较100次模拟结果的均值与标准差。另一方面又对真实数据进行实例分析,真实案例是关于某银行客户信用问题的分类,实验的目的是判别客户是否讲信用。比较三种判别方法的判别结果,从而体现我们提出的判别方法的优越性。